Nvidia har til formål at køre neurale net hurtigere, mere effektivt

0
165

Nul

Kunstig intelligens er at have en reel indvirkning på mange brancher. Det overstiger nu mennesker på et billede anerkendelse og talegenkendelse opgaver, det nærmer sig det menneskelige niveauer for oversættelse, og det er at slå eksperter i alle slags spil. Det bliver brugt i medicin, medier og underholdning, og sikkerhed. Og autonome køretøjer, lover at reducere de 1,3 millioner trafikken dødsfald hvert år-i høj grad menneskelige fejl.

“Medmindre, du har sovet under en sten, du har bemærket, at der er en AI-revolution i gang,” Bill Dally, Nvidia ‘ s Chief Scientist og leder af forskning, sagde på det seneste VLSI Symposier. “Alle aspekter af menneskers liv og handel vil blive dybt påvirket af AI.”

På trods af disse fremskridt, dyb læring er fortsat “helt lukket af hardware”, fordi de arbejdspladser, der bliver større. ImageNet er nu betragtes som en lille datasæt og nogle cloud data centre toget på mere end en milliard billeder, og brug opad på 1.000 Gpu ‘ er, Smøle sagde. Microsofts ResNet-50 neurale netværk kræver 7.72 milliarder operationer til at behandle en lav opløsning (225×225) billede. I hans tale, Smøle diskuteres nogle af de måde, at circuit design kan øge effektiviteten af uddannelse og inferens for at opfylde disse stigende krav.

nvidia-vlsi1.jpg

Det aritmetiske i dyb neurale netværk i høj grad består af vindinger og matrix-multiplikation. Uddannelsen kræver, at mindst halvdelen præcision (FP16) og “state-of-the-art,” Smøle sagde, er Tesla V100 med sin Tensor Kerner, der kan levere 120 billioner operationer per sekund, med meget høj effektivitet. Cpu ‘er og Fpga’ er størrelsesordener ud, sagde han, og endda brugerdefinerede chips ville levere i bedste 30 procent bedre performance per watt.

V100 er også kernen af, hvad der nu er verdens hurtigste supercomputer. Topmødet har 4,608 knudepunkter hver med to IBM Power9 Cpu ‘er og seks Tesla V100s for i alt 27,648 Gpu’ er og er teoretisk set i stand til tre exaops af peak gennemløb (den officielle foranstaltning er 122.3 petaflops på High Performance Linpack). Dally sagde, Oak Ridge National Laboratory har allerede kørt simuleringer, der kan opretholde 1.6 exaops på “meningsfulde applikationer.”

Kører disse uddannet modeller er forskellige. Til slutning, den nøjagtighed, du får på INT8 er “masser” og reduceret præcision sparer energi, fordi matrix multiplikation øger quadratically, og det reducerer også dø område (og dermed omkostningerne). Den Xavier SoC, som er dybest set en tiendedel af en V100-men med en fast funktion dyb-læring accelerator som Google ‘ s TPU, kan levere op til 20 billioner operationer per sekund. At bemærke, at Google i forhold til dens TPU til en ældre Nvidia K80, Smøle sagde Pascal-baseret Tesla P40 allerede leverer bedre resultater for inferens.

Udfordringen for slutning er til at håndtere masser af aktiviteter i real-time ved hjælp af den mindste mængde af energi. For eksempel, Nvidia ‘ s DriveNet har 12 kameraer, der løber gennem fire separate neurale netværk. På HD-opløsning, kræver det, at 9,4 billioner operationer per sekund per billede. “Det er en enorm beregning belastning, der er ved at blive gjort i et køretøj, hvor magten er begrænset,” Smøle sagde. Nvidia har udviklet en metode til træning netværk til at gøre inferens ned til fire bits med lidt tab i nøjagtighed, således at der ved 16nm core inferens operationer (MAC) kan udføres i omkring 10 femtojoules digitalt, “og mener jeg faktisk, at du kan gøre det bedre end det.”

Når du kører den matematiske ned til det niveau, de udfordringer, der er alt om at flytte data rundt. Få adgang til lokale SRAM bruger 5 picojoules per ord, on-chip cache bruger 50 picojoules, og går ud på at low-power DDR DRAM (eller høj-båndbredde memeory) er 640 picojoules, “så du ikke ønsker at have til at gå ud chip.” På 10 femtojoules, omkostningerne ved beregning er så lav, at selv trække data fra SRAMs begynder at dominere. Dally foreslået nogle teknikker til at reducere omkostningerne til kommunikation på tre niveauer: på chip på modul og mellem modulerne.

Efter at nedbringe den præcision, det næste trick er at drage fordel af de data sparsity i de fleste neurale netværksmodeller. Nvidia har tidligere præsenteret en tre-trins proces, der består af uddannelse nettet for at lære, hvilke forbindelser, der er vigtige, beskæring ligegyldige parametre, og derefter omskoling netværket til at finjustere vægten af de resterende forbindelser til at inddrive nøjagtighed. Ved at udnytte data genbrug i formere samle operationer, kan systemet minimere memory båndbredde og strøm.

Når du har brug for at gå til hukommelse, on-chip ledninger er meget tætte, men ikke energi-effektive, og det er usandsynligt at forbedre, fordi forsyningsspændinger er skalering meget langsomt. Nvidia har foreslået idéen–første gang præsenteret på ISSCC–beregning genanvendt signalering, som bruger stakke af wire repeatere for at få en fire-fold forbedring i on-chip energieffektivitet. For at undgå interferens, Nvidia låner begrebet balancing trafik på parallelle tråde–typisk anvendes i semi-custom stoffer til at krydse længere afstande-for at skabe et netværk-on-chip stof, der kun forbruger en kvadrat millimeter af die område, og har en båndbredde på 4 TB per sekund.

På modul niveau, Smøle talte om en række, der består af fire Gpu ‘ er omgivet af stakke af DRAM hukommelse. Disse multi-chip-moduler kræver også at signalere, at der er tætte og energieffektive. Hver GPU kræver en terabit per sekund DRAM båndbredde–et nummer, som skalaer med GPU performance-og Gpu ‘ er nødt til at være forbundet til hinanden med sammenlignelige båndbredde. Da hver chip har kun et par hundrede brugbart signal benene på hver side, du har brug for signalering priser af 20Gbps eller mere for at nå dette niveau af gennemløb. Konventionelle SerDes links bruge en masse strøm, men Nvidia har været at eksperimentere med en teknologi, der kaldes jorden-der refereres til signalering (GRS), at Smøle sagde fungerer pålideligt ved hastigheder på op til 25bps, mens du bruger omkring 20 procent af strømmen. GRS kunne bruges til at tilslutte flere chips på et enkelt modul eller til at forbinde flere pakker fordelt tæt sammen på en printplade.

nvidia-vlsi2.jpg

På det øverste niveau, Nvidia talte om en mere effektiv måde at tilslutte flere moduler. At træne en lang model som ResNet-50, der hver GPU har brug for omkring 400 GB per sekund af i/O-båndbredde for at udveksle parametre. Den konventionelle tilgang med striplines og gennem-hullet vias i trykte kredsløb til ruten high-speed data mellem moduler bruger 10 til 15 picojoules per bit. I stedet Nvidia foreslået emballage moduler tæt sammen med flydende afkøling og derefter forbinde dem direkte med fleksible trykt kredsløb links. Når signalering på 25Gbps, 40mm kolli kant kan støtte 400 – til 500GBps af i/O-båndbredde per GPU, mens du bruger bare to picojoules per bit.

Om Nvidia vil vedtage nogen af disse forsknings-idéer i fremtidige acceleratorer og DGX-systemer er ikke klart. Hvad er tydeligt, dog, er, at industrien kan ikke længere regne med Moore ‘ s Lov til at levere den samme ydelse forbedringer hvert par år. Som rå beregning når sine grænser i form af ydelse per watt, omkostningerne ved at flytte data rundt er blevet en flaskehals, og det vil tage nogle kreative ideer på alle niveauer i systemet designet til at fortsætte med at omfanget af kunstig intelligens.

Relaterede Emner:

Processorer

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software

0