Zero
L’intelligenza artificiale è di avere un impatto reale su molti settori. Ora supera gli esseri umani a qualche immagine di riconoscimento vocale e riconoscimento di attività, si sta avvicinando livello umano per la traduzione, e si sta battendo esperti in tutti i tipi di giochi. Viene utilizzato in medicina, dei media e dell’intrattenimento, e la sicurezza. E veicoli autonomi promessa di ridurre drasticamente il 1,3 milioni di strada il traffico di morti ogni anno-in gran parte attraverso l’errore umano.
“A meno che non hai dormito sotto una roccia, hai notato che c’è una IA rivoluzione,” Bill Dally, Nvidia, direttore scientifico e responsabile della ricerca, ha detto al recente VLSI Simposi. “Ogni aspetto della vita umana e del commercio sta per essere profondamente influenzato dall’IA.”
Nonostante questi progressi, deep learning “rimane completamente recintato da hardware” poiché i posti di lavoro sono sempre più grandi. ImageNet è ormai considerato un piccolo set di dati e alcuni data center cloud treno su più di un miliardo di immagini, e utilizzare verso l’alto di 1.000 Gpu, Dally ha detto. Microsoft ResNet-50 rete neurale richiede 7,72 miliardi di euro operazioni di processo a bassa risoluzione (225×225) immagine. Nel suo discorso, Dally ha discusso alcuni dei modo che la progettazione di circuito, può aumentare l’efficienza di formazione e di inferenza per soddisfare le crescenti esigenze.

L’aritmetica nel profondo reti neurali costituito in gran parte da circonvoluzioni e la moltiplicazione di matrici. La formazione richiede almeno la metà di precisione (FP16) e “state-of-the-art,” Dally ha detto, è il Tesla V100 con il suo Tensore di Core che offrono 120 trilioni di operazioni al secondo, con un’efficienza molto elevata. Cpu e chip Fpga sono ordini di grandezza fuori, ha detto, e anche chip personalizzati garantirebbe al 30 per cento migliori prestazioni per watt.
Il V100 è anche il cuore di quello che è ora il supercomputer più veloce del mondo. Summit ha 4,608 nodi con due IBM Power9 Cpu e sei Tesla V100s per un totale di 27,648 Gpu e, in teoria, è in grado di tre exaops di throughput di picco (la misura ufficiale è 122.3 petaflops ad Alto Rendimento Linpack). Dally ha detto l’Oak Ridge National Laboratory ha già eseguito simulazioni in grado di sostenere la 1.6 exaops su “applicazioni intelligenti.”
L’esecuzione di questi formati di modelli differenti. Per inferenza, la precisione che si ottiene in INT8 è “abbondanza” e ridotto di precisione consente di risparmiare energia, perché la moltiplicazione di matrici aumenta al quadrato e si riduce anche morire area (e quindi i costi). Il Saverio SoC, che è fondamentalmente un decimo di V100, ma con una funzione fissa profondo di apprendimento acceleratore come Google TPU, in grado di fornire fino a 20 trilioni di operazioni al secondo. Notare che Google ha confrontato la sua TPU per una vecchia Nvidia K80, Dally ha detto che il Pascal a base di Tesla P40 già offre le migliori prestazioni per l’inferenza.
La sfida per l’inferenza è quello di gestire un sacco di operazioni in tempo reale utilizzando la quantità minima di energia. Per esempio, Nvidia DriveNet dispone di 12 telecamere che funzionano attraverso quattro diverse reti neurali. A risoluzione HD, richiede 9.4 trilioni di operazioni al secondo per ogni immagine. “Questo è un enorme calcolo del carico che è stato fatto in un veicolo in cui il potere è limitato,” Dally ha detto. Nvidia ha sviluppato un metodo di formazione di reti di fare inferenza giù a quattro bit con una piccola perdita in precisione, in modo che a 16nm core operazioni di inferenza (MAC) può essere eseguita in circa 10 femtojoules digitalmente, “e io in realtà penso che si può fare di meglio.”
Quando si guida la matematica a quel livello, le sfide sono tutte sullo spostamento dei dati in giro. Accesso locale SRAM consuma 5 picojoules per parola, di cache on-chip utilizza il 50 picojoules, per andare a bassa potenza DDR DRAM (o ad alta larghezza di banda e spazio disco) è di 640 picojoules, “quindi non voglio andare in off chip.” A 10 femtojoules, il costo di calcolo è così basso che anche l’estrazione di dati da Sram inizia a dominare. Dally ha suggerito alcune tecniche per ridurre i costi delle comunicazioni a tre livelli: sul chip, su modulo e tra i moduli.
Dopo la riduzione della precisione, il prossimo trucco è quello di sfruttare i dati di scarsità nella maggior parte dei modelli di rete neurale. Nvidia ha presentato in passato un processo in tre fasi che si compone di formazione in rete per imparare che le connessioni sono importanti, potatura irrilevante, i parametri, e quindi la riqualificazione della rete per ottimizzare i pesi delle connessioni rimanenti per recuperare la precisione. Sfruttando il riutilizzo dei dati in moltiplica-si accumulano le operazioni, il sistema può minimizzare la larghezza di banda di memoria e di potenza.
Quando si ha bisogno di andare a memoria, il chip fili sono molto densa, ma non efficiente dell’energia e che è improbabile che migliorare perché le tensioni di alimentazione sono di scala molto lentamente. Nvidia ha proposto l’idea, presentata per la prima volta all’ISSCC–di carica riciclato segnalazione, che utilizza pile di filo di ripetitori per ottenere un quattro volte al miglioramento in on-chip di efficienza energetica. Per evitare interferenze, Nvidia prende in prestito il concetto di bilanciamento del traffico sulla parallela fili–in genere utilizzato in semi-custom tessuti a percorrere lunghe distanze–per creare un network-on-chip tessuto che consuma solo un millimetro quadrato di morire e ha una larghezza di banda di 4 tb al secondo.
A livello di modulo, Dally ha parlato di un array composto da quattro Gpu circondato da pile di memoria DRAM. Questi multi-moduli di chip richiedono anche la segnalazione che è denso e a risparmio energetico. Ogni GPU richiede un terabit al secondo di DRAM larghezza di banda-un numero di scale con le prestazioni della GPU–e la Gpu devono essere collegati l’uno all’altro con analoghi della larghezza di banda. Dal momento che ogni chip ha solo qualche centinaio di segnale utilizzabile perni su ogni lato, è necessario segnalazione tassi di 20Gbps o più per raggiungere questo livello di velocità. Convenzionale fornisce un link utilizza un sacco di potenza, ma Nvidia ha sperimentato con una tecnologia denominata con riferimento a terra di segnalazione (GRS) che Dally detto che funziona in modo affidabile fino a una velocità di 25bps durante l’utilizzo di circa il 20 per cento della potenza. GRS può essere usato per collegare chip multipli in un singolo modulo o per collegare più pacchetti distanziati a stretto contatto insieme su un circuito stampato.
Al livello superiore, Nvidia ha parlato di un modo più efficiente per collegare più moduli. Per formare un modello di grandi dimensioni come ResNet-50, ogni GPU ha bisogno di circa 400 GB al secondo di banda di I/O per i parametri di scambio. L’approccio convenzionale che utilizza striplines attraverso-foro e del vias nelle schede a circuito stampato a rotta di dati ad alta velocità tra i moduli vengono utilizzate da 10 a 15 picojoules per bit. Invece Nvidia proposti per l’imballaggio moduli a stretto contatto con raffreddamento a liquido e poi li collega direttamente con flessibile circuito stampato link. Quando la segnalazione a 25Gbps, 40mm di pacchetto di bordo in grado di supportare 400 – a 500GBps di banda di I/O per la GPU, mentre utilizzando solo due picojoules per bit.
Se Nvidia adotterà una qualsiasi di queste idee di ricerca, in futuro, acceleratori e DGX sistemi non è chiaro. Ciò che è chiaro, tuttavia, è che l’industria non può più contare sulla Legge di Moore a fornire le stesse prestazioni miglioramenti ogni paio di anni. Come materie prime per il calcolo raggiunge i suoi limiti in termini di prestazioni per watt, il costo di trasferimento dei dati, che deve diventare il collo di bottiglia e ci vorrà un po ‘ di idee creative a tutti i livelli di progettazione del sistema di continuare a scala di intelligenza artificiale.
Argomenti Correlati:
Processori
La Trasformazione Digitale
CXO
Internet delle Cose
L’innovazione
Enterprise Software
0