Nvidia wil uitvoeren neurale netwerken sneller, efficiënter

0
70

Nul

Kunstmatige intelligentie is het hebben van een reële impact op vele industrieën. Het is inmiddels hoger dan de mens bij sommige beeldherkenning en spraakherkenning taken, is het naderende menselijke niveaus voor taal vertaling, en het klopt deskundigen op allerlei games. Het wordt gebruikt in de geneeskunde, media en entertainment en beveiliging. En de autonome voertuigen belofte om drastisch verminderen van de 1,3 miljoen wegverkeer doden per jaar-grotendeels door een menselijke fout.

“Tenzij je al slapen onder een rots, heb je gemerkt dat er een AI-revolutie aan de gang,” Bill Dally, Nvidia ‘ s Chief Wetenschapper en hoofd van het onderzoek, zei op de recente VLSI Symposia. “Elk aspect van het menselijk leven en de handel gaat diep worden beïnvloed door de AI.”

Ondanks deze vooruitgang, diep leren blijft “volledig omheind door hardware” omdat de opdrachten worden steeds groter. ImageNet wordt nu beschouwd als een kleine dataset en een aantal cloud datacenters trein op meer dan één miljard beelden en het gebruik naar boven 1.000 Gpu ‘ s, Dally zei. Microsoft ‘ s ResNet-50 neurale netwerk vereist 7.72 miljard activiteiten voor de verwerking van een lage-resolutie (225×225) beeld. In zijn toespraak, Dally besproken gedeelte van de weg dat circuit ontwerp kan het vergroten van de efficiëntie van de opleiding en de gevolgtrekking om te voldoen aan de groeiende eisen.

nvidia-vlsi1.jpg

De rekenkundige bewerkingen in diepe neurale netwerken bestaat grotendeels uit windingen en de matrixvermenigvuldiging. De opleiding moet ten minste de helft-van de precisie (FP16) en de “state-of-the-art,” Dally gezegd, is de Tesla V100 met de Tensor-Kernen die het leveren van 120 biljoen bewerkingen per seconde met een zeer hoog rendement. Cpu ‘s en fpga’ s zijn ordes van grootte uit, zei hij, en zelfs op maat gemaakte chips zou leveren bij de beste 30 procent betere prestaties per watt.

De V100 is ook het hart van wat nu het ‘ s werelds snelste supercomputer. Top heeft 4,608 nodes met elk twee IBM Power9 Cpu ‘s en zes Tesla V100s voor een totaal van 27,648 Gpu’ s en is theoretisch in staat om van drie exaops van piek doorvoer (de officiële maat is 122.3 petaflops op Hoge Prestaties Linpack). Dally zei Oak Ridge National Laboratory al heeft uitgevoerd simulaties dat kan volhouden 1.6 exaops op ‘ zinvolle toepassingen.”

Deze getrainde modellen is verschillend. Voor de inferentie, de juistheid je bij INT8 is “veel” en een verminderde precisie bespaart energie omdat matrixvermenigvuldiging kwadratisch toeneemt en het vermindert ook die gebied (en dus kosten). De Xavier SoC, die is in principe één-tiende van een V100, maar met een vaste functie diep-learning accelerator zoals Google TPU, kunnen tot 20 biljoen bewerkingen per seconde. Op te merken dat Google in vergelijking met de TPU naar een oudere Nvidia K80, Dally, zei de Pascal-gebaseerde Tesla P40 al levert betere prestaties voor de inferentie.

De uitdaging voor de inferentie is om tal van acties in real-time met behulp van de minimale hoeveelheid energie. Bijvoorbeeld, Nvidia ‘s DriveNet heeft 12 camera’ s die worden uitgevoerd via vier verschillende neurale netwerken. Bij HD-resolutie, het vereist 9.4 biljoen bewerkingen per seconde per foto. “Dit is een enorme berekening belasting die wordt gedaan in een voertuig, waar de macht is beperkt,” Dally zei. Nvidia ontwikkelde een methode van training netwerken te doen gevolgtrekking neer op vier bits met weinig verlies in nauwkeurigheid, zodat op 16nm core gevolgtrekking activiteiten (MAC) kan worden uitgevoerd in ongeveer 10 femtojoules digitaal, “en ik denk eigenlijk dat je beter kunt doen dan dat.”

Wanneer u rijdt in de wiskunde naar dat niveau, de uitdagingen zijn alle over het verplaatsen van gegevens rond. Toegang tot lokaal SRAM verbruikt 5 picojoules per woord, on-chip cache gebruikt 50 picojoules, en uit te gaan naar een low-power-DDR DRAM (of hoge-bandbreedte memeory) is 640 picojoules, “dus u wilt niet te hebben om te gaan off-chip.” Op 10 femtojoules, de kosten van de berekening is zo laag dat zelfs het ophalen van gegevens uit Sram begint te domineren. Dally suggereerde een aantal technieken voor het terugdringen van de kosten van de communicatie op drie niveaus: op-chip module en tussen de modules.

Na het verminderen van de precisie, de volgende truc is om het voordeel van de gegevens sparse in de meeste neurale netwerk modellen. Nvidia heeft eerder voorgesteld een drie-stap proces dat bestaat uit een opleiding van het netwerk om te leren welke verbindingen zijn belangrijk, het snoeien van de onbelangrijke parameters, en vervolgens de omscholing van het netwerk te fine-tunen van de gewichten van de overige verbindingen te herstellen nauwkeurigheid. Door het benutten van data voor hergebruik in vermenigvuldigen-accumuleren operaties, het systeem kan het minimaliseren van de geheugen bandbreedte en macht.

Wanneer u moet gaan naar het geheugen van de on-chip draden zeer dicht, maar niet energie-efficiënt is en dat is waarschijnlijk niet verbeteren omdat voedingsspanningen schalen zeer langzaam. Nvidia heeft voorgesteld het idee-het eerst gepresenteerd op de ISSCC–kosten gerecycled signalering, die gebruik maakt van stapels draad repeaters om een vier-voudige verbetering van on-chip energie-efficiëntie. Om interferentie te vermijden, Nvidia leent het concept van de afweging van het verkeer op de parallelle draden, meestal gebruikt in de semi-custom stoffen te doorkruisen langere afstanden–het creëren van een netwerk-op-chip stof die verbruikt slechts één vierkante millimeter van die gebied en heeft een bandbreedte van 4 TB per seconde.

Op module niveau, Dally gesproken over een matrix die bestaat uit vier Gpu ‘ s, omringd door stapels van DRAM-geheugen. Deze multi-chip modules vereisen ook signalering die is compact en energie-efficiënt. Elke GPU vereist een terabit per seconde van DRAM bandbreedte–een getal dat de weegschaal met de GPU-prestaties-en de Gpu ‘ s moeten met elkaar worden verbonden met een vergelijkbare bandbreedte. Aangezien elke chip heeft slechts een paar honderd bruikbaar signaal pinnen op de rand, moet u een signaalsnelheid van 20Gbps of meer om dat niveau te bereiken van doorvoer. Conventionele SerDes links gebruiken veel stroom, maar Nvidia heeft aan het experimenteren geweest met een technologie genaamd grond-verwezen signalering (GRS) dat Dally zei werkt betrouwbaar bij snelheden tot 25bps terwijl ongeveer 20 procent van de energie. GRS kan worden gebruikt voor het aansluiten van meerdere chips in een enkele module of voor het aansluiten van meerdere pakketten verdeeld nauw samen op een printplaat.

nvidia-vlsi2.jpg

Op het hoogste niveau, Nvidia gesproken over een meer efficiënte manier voor het aansluiten van meerdere modules. Train je een groot model zoals ResNet-50, elke GPU heeft ongeveer 400 GB per seconde van de I/O-bandbreedte te wisselen parameters. De conventionele aanpak aan de hand van striplines en through-hole vias in printplaten om de route van gegevens met hoge snelheid tussen de modules gebruikt 10 tot 15 picojoules per bit. In plaats van een Nvidia voorgestelde verpakking de modules nauw samen met liquid cooling en het verbinden hen met flexibele printed-circuit board links. Wanneer signalering op 25Gbps, 40mm van het pakket kan de rand van de ondersteuning van 400 tot 500GBps van I/O-bandbreedte per GPU, terwijl het gebruik van slechts twee picojoules per bit.

Of Nvidia zal vast een van deze ideeën voor onderzoek in de toekomst versnellers en DGX-systemen is niet duidelijk. Wat blijkt, echter, is dat de industrie niet langer rekenen op de Wet van Moore te leveren dezelfde prestaties om de paar jaar. Als ruwe berekening zijn grenzen bereikt in termen van prestaties per watt, de kosten van het verplaatsen van gegevens rond de bottleneck en het duurt een aantal creatieve ideeën op alle niveaus van het ontwerp van het systeem te blijven schaal kunstmatige intelligentie.

Verwante Onderwerpen:

Processors

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software

0