Noll
Artificiell intelligens är att ha en verklig inverkan på många industrier. Det är nu över människor på någon bild erkännande och taligenkänning uppgifter, det närmar sig mänskliga nivåer för översättning till andra språk, och det är att slå experter på alla typer av spel. Det används i medicin, media och underhållning, och säkerhet. Och autonoma fordon lovar att drastiskt minska de 1,3 miljoner vägtrafiken dödsfall varje år-till stor del genom den mänskliga faktorn.
“Om du inte har sovit under en sten, ni har märkt att det är en AI-revolution som pågår,” Bill Dally, Nvidia: s främsta Forskare och chef för research, sade vid det senaste VLSI Symposier. “Varje aspekt av mänskligt liv och handel kommer att vara djupt påverkad av AI.”
Trots dessa framsteg, djupt lärande är “helt gated av maskinvara” för de jobb som finns blir större. ImageNet är nu anses vara en liten dataset och några moln datacenter träna på mer än en miljard bilder och använd uppåt 1 000 Grafikprocessorer, Flörta sagt. Microsofts ResNet-50 neurala nätverk kräver 7.72 miljarder verksamhet för att bearbeta en låg upplösning (225×225) bild. I sitt föredrag, Flörta diskuteras några av de sätt som circuit design kan öka effektiviteten av utbildning och slutledning för att möta dessa ökande krav.

Det aritmetiska i djup neurala nätverk till stor del består av faltningar och matrismultiplikation. Utbildning krävs att minst hälften precision (FP16) och “state-of-the-art”,” Dally sade Tesla V100 med sin Tensor Kärnor som kan leverera 120 biljoner operationer per sekund med mycket hög verkningsgrad. Processorer och Fpga: er är storleksordningar mindre, sade han, och även egna marker skulle leverera i bästa fall 30 procent bättre prestanda per watt.
Den V100 är också kärnan i vad som är nu världens snabbaste superdator. Toppmötet har 4,608 noder med vardera två IBM Power9 Processorer och sex Tesla V100s för en summa av 27,648 Grafikprocessorer och är teoretiskt kan tre exaops av peak genomströmning (det officiella måttet är 122.3 petaflop på Hög Prestanda Linpack). Dally sa Oak Ridge National Laboratory har redan köra simuleringar som kan upprätthålla 1.6 exaops om “meningsfulla program.”
Kör dessa utbildade modeller är olika. För inferens, den noggrannhet som man får på INT8 är “gott” och minskad precision sparar energi eftersom matrismultiplikation ökar quadratically och det minskar också dö område (och därmed kostnaden). Xavier SoC, som i princip är en tiondel av en V100 men med en fast funktion djup-learning accelerator som Google TPU, kan leverera upp till 20 biljoner operationer per sekund. Notera att Google jämfört dess TPU till en äldre Nvidia K80, Flörta, sade Pascal-baserade Tesla P40 redan ger bättre prestanda för inferens.
Utmaningen för inferens är att hantera massor av verksamheten i realtid med hjälp av minsta möjliga mängd energi. Till exempel, Nvidias DriveNet har 12 kameror som går genom fyra separata neurala nätverk. Vid HD-upplösning, det kräver till 9,4 biljoner operationer per sekund per bild. “Detta är en enorm beräkning av belastning som görs i ett fordon där makt är begränsad,” Dally sagt. Nvidia utvecklat en metod för utbildning nätverk för att göra inferens ner till fyra bitar med liten förlust i precisionen så att vid 16nm core slutledning verksamhet (MAC) kan utföras i ca 10 femtojoules digitalt, “och jag tror faktiskt att du kan göra bättre än så.”
När du kör matte ner till den nivån, de utmaningar som handlar om att flytta data runt. Öppna lokal SRAM förbrukar 5 picojoules per ord, on-chip cache använder 50 picojoules, och gå ut till låg effekt DDR-DRAM (eller high-bandwidth memeory) är 640 picojoules, “så att du inte vill gå off-chip.” Vid 10 femtojoules, kostnaden för beräkningen är så låg att även hämta data från Sram börjar dominera. Dally föreslagit en del tekniker för att minska kostnaderna för kommunikation på tre nivåer: på chip, på modulen och mellan moduler.
Efter att minska den precision, nästa knep är att dra nytta av de uppgifter gleshet i de flesta neurala nätverk modeller. Nvidia har tidigare presenterat en process i tre steg som består av utbildning i nätverket för att lära sig vilka anslutningar som är viktigt, beskärning oviktigt parametrar, och sedan omskolning nätverket för att finjustera vikten av de återstående anslutningar för att återställa noggrannhet. Genom att utnyttja data för återanvändning i flerbädds-samla verksamheten, systemet kan minimera minne bandbredd och makt.
När du behöver gå till minne, on-chip ledningar är mycket tät, men inte energieffektiv och det är osannolikt att förbättra eftersom matningsspänningar är skalning mycket långsamt. Nvidia har föreslagit–först presenteras vid ISSCC–kostnad återvunnet signalering, som använder högar av tråd repeater för att få en fyra gångers förbättring i on-chip energieffektivitet. För att undvika störningar, Nvidia lånar begreppet balansera trafik på parallella trådar–som normalt används i semi-custom tyger för att färdas längre sträckor-att skapa ett nätverk-on-chip tyg som bara drar en kvadrat millimeter dö, och har en bandbredd på 4 TB per sekund.
På modulnivå, Flörta pratade om en matris som består av fyra Grafikprocessorer omgiven av travar av DRAM-minne. Dessa multi-chip-moduler kräver också signalering som är täta och energisnåla. Varje GPU kräver en terabit per sekund av DRAM-bandbredd-ett nummer som skalor med GPU-prestanda-och Gpu måste vara ansluten till en annan med motsvarande bandbredd. Eftersom varje chip har bara några hundra användbar signal stift på varje kant, du behöver signalering priser av 20Gbps eller mer för att nå denna nivå av genomströmning. Konventionella SerDes länkar använda en hel del makt, men Nvidia har experimenterat med en teknik som kallas för ground-refereras signalering (GRS) att Flörta sade fungerar på ett tillförlitligt sätt vid hastigheter upp till 25bps samtidigt som du använder ca 20 procent av makt. GRS kan användas för att ansluta flera marker på en enda modul eller för att ansluta flera paket placerade tätt ihop på ett kretskort.
På den översta nivån, Nvidia talade om ett mer effektivt sätt att ansluta flera moduler. Att utbilda en stor modell som ResNet-50, varje GPU behöver ungefär 400 GB per sekund av i/O-bandbredd för att utbyta parametrar. Den konventionella metoden att använda striplines och hål-vias i kretskort till i rutt data med hög hastighet mellan moduler använder 10 till 15 picojoules per bit. Istället Nvidia föreslagen förpackning moduler nära samarbete med flytande kylning och sedan ansluta dem direkt med flexibla kretskort länkar. När signalering på 25Gbps, 40mm av paket kanten kan stödja 400 – till 500GBps av I/O-bandbredd per GPU medan du använder bara två picojoules per bit.
Om Nvidia kommer att anta någon av dessa forskningsidéer i framtiden acceleratorer och DGX-system är inte klart. Vad som är uppenbart är dock att industrin kan inte längre räkna på Moores Lag för att leverera samma prestanda förbättringar för alla par år. Som rå beräkning når sina gränser i form av prestanda per watt, kostnaden för att flytta data runt har blivit en flaskhals och det kommer att ta några kreativa idéer på alla nivåer i utformningen av systemet för att fortsätta att skala artificiell intelligens.
Relaterade Ämnen:
Processorer
Digital Omvandling
CXO
Sakernas Internet
Innovation
Affärssystem
0