Cerebras CEO parla di grandi implicazioni per l’apprendimento automatico di una società big chip

0
105

Qualità dei Dati: Il primo miglio della macchina di apprendimento
Per avviare un’efficace macchina di apprendimento iniziativa, le aziende devono iniziare con i dati di qualità — e mantenere un flusso costante di dati per mantenere i modelli aggiornati, spiega Dale Brown, responsabile Operazioni di Figura Otto.

Potreste aver sentito che, lunedì, startup nella Silicon Valley Cerebras Sistemi svelato al mondo di chip più grande, chiamato il WSE, o “wafer-scala motore”, pronunciato “saggio”. Sta per essere costruito in modo da completare i sistemi informatici venduti dall’Cerebras.

Quello che forse non sapete è che il WSE e il sistema rende possibile avere alcune affascinanti implicazioni per l’apprendimento profondo forme di AI, al di là semplicemente velocizzare i calcoli.

Cerebras co-fondatore e chief executive Andrew Feldman parlato con ZDNet un po ‘ sulle modifiche possibili in un profondo apprendimento.

Ci sono tre conseguenze immediate, che può essere visto in ciò che sappiamo del WSE finora. La prima, un aspetto importante di profonda reti, noto come “normalizzazione”, può ottenere una revisione. Secondo, il concetto di “diffusione” di affrontare i singoli punti dati, piuttosto che un gruppo o “batch” può assumere un ruolo sempre più centrale nell’apprendimento profondo. E il terzo, come la gente inizia a sviluppare con il WSE sistema in mente, più interessanti forme di elaborazione parallela può diventare un fuoco di quanto non sia stato fino ad ora.

Tutto questo rappresenta ciò che Feldman dice che è l’hardware, liberando le scelte di progettazione e di sperimentazione nell’apprendimento profondo.

cs-wafer-comparison-gpu-black.jpg

Cerebras del “wafer-scala motore”, a sinistra, rispetto ad un top-of-the-line di unità di elaborazione grafica Nvidia, il “V100,” popolari nel profondo di formazione.

Cerebras Sistemi.

“Siamo orgogliosi del fatto che siamo in grado di sveltire l’esistente, sperimentando modelli di Hinton e Bengio e LeCun,” dice Feldman, in riferimento ai tre apprendimento profondo pionieri che ha vinto quest’anno ACM Turing award per il loro lavoro di approfondimento, Geoffrey Hinton, Yoshua Bengio, e Yann LeCun.

“Ma la cosa più interessante sono i nuovi modelli ancora da sviluppare”, ha aggiunto.

“La dimensione dell’universo di modelli che possono essere addestrati è molto grande”, osserva Feldman, “ma il sub-set di funzionare bene su una GPU è molto piccolo, e che è dove le cose si sono concentrati finora”, riferendosi all’elaborazione grafica chip di Nvidia che sono i principali calcolare dispositivo per il deep learning.

Il primo segno che qualcosa di molto interessante stava accadendo con Cerebras è venuto in un articolo pubblicato su arXiv pre-server di stampa in Maggio da Vitaliy Chiley e i suoi colleghi Cerebras, intitolato “in Linea di Normalizzazione per l’Addestramento di Reti Neurali.” In questo libro, gli autori propongono una modifica al modo in cui la macchina di reti di apprendimento sono costruito, chiamato normalizzazione.

Inoltre: AI è cambiare l’intera natura del compute

“I modi in cui i problemi sono sempre stato attaccato si sono riuniti intorno a loro tutta una serie di sigillo di cera, e la corda e modi poco per correggere i punti di debolezza”, osserva Feldman. “Sembrano praticamente per richiedere che fai il lavoro il modo in cui una GPU ti fa fare il lavoro.”

Feldman punti batch sono un artefatto della Gpu di elaborazione parallela. “Pensa al motivo per cui lotti di grandi dimensioni è venuto in primo luogo,” dice. “La cosa fondamentale per la matematica in rete neurale è un vettore volte una matrice.” Tuttavia, “se non che lascia una GPU molto basso utilizzo, come, un paio di per cento utilizzato, e questo è molto male.”

Anche: Google dice che una crescita esponenziale di AI è cambiare la natura di calcolare

Così, il dosaggio è stato proposto di riempire la GPU pipeline di operazioni. “Quello che hanno fatto è che in pila vettori sulla parte superiore di ogni altro per una matrice per matrice si moltiplicano, e la sovrapposizione di tali vettori è ciò che si chiama un mini-batch”.

Tutto questo significa che il dosaggio è “non guidato dalla macchina di apprendimento teoria, sono spinti dalla necessità di ottenere l’utilizzo di una GPU; si tratta di un caso di noi flessione nostra rete neurale pensando alle esigenze di una particolare architettura hardware, ma all’indietro.”

“Una delle cose che ci sono più entusiasta è che WSE ti permette di fare di apprendimento profondo il senso profondo di apprendimento vuole essere fatto, non shoehorned in una particolare architettura”, dichiara Feldman.

Il WSE è inteso per quello che è chiamato lotti di piccole dimensioni, o in realtà, “la dimensione del batch di uno.” Invece di disturbare un sacco di campioni attraverso ogni circuito, il WSE è hard-wired circuiti che inizia a calcolare quando rileva un singolo campione che ha valori diversi da zero.

cerebrasfeldmanresized.jpg

Cerebras Sistemi di co-fondatore e CEO Andrew Feldman.

Tiernan Ray.

Il focus sul sparse segnali è un rimprovero ai “dati parallelismo” di esecuzione di più campioni, che, di nuovo, è un anacronismo della GPU, sostiene Feldman. “I dati parallelismo significa che le singole istruzioni verranno applicate a più pezzi di dati, allo stesso tempo, anche se essi sono pari a zero, che è perfetto se non sono mai zeri come grafica.

“Ma quando fino al 80% è pari a zero, come in una rete neurale, non è intelligente a tutti-non è saggio.” Egli osserva che, in media di rete neurale, il “ReLU,” il più comune tipo di unità di attivazione di un neurone artificiale, è “l’ 80% degli zeri di uscita.”

Essere in grado di gestire sparse segnali sembra essere un importante direzione per l’apprendimento profondo. In un discorso a un chip conferenza nel mese di febbraio, l’International Solid State Circuits Conference, Facebook testa di AI di ricerca, Yann LeCun, ha osservato che “la dimensione del DL sistemi cresce, i moduli attivazioni diventerà sempre più radi, con solo un sottoinsieme delle variabili di un sottoinsieme dei moduli attivati in qualsiasi momento.”

Più vicino a come funziona il cervello, sostiene LeCun. “Purtroppo, con l’attuale hardware, il dosaggio è quello che ci permette di ridurre il più basso livello di rete neurale operazioni di matrice prodotti, e, quindi, di ridurre l’accesso alla memoria-a-calcolo del rapporto”, ha detto, facendo eco Feldman.

“Così, abbiamo bisogno di nuove architetture hardware che può funzionare in modo efficiente con le dimensioni di un batch di uno.”

Se i dati tradizionali, il parallelismo delle Gpu è meno ottimale, Feldman sostiene WSE rende possibile una sorta di rinascimento di elaborazione parallela. In particolare, l’altro tipo di parallelismo può essere esplorato, denominato “modello di parallelismo,” dove parti separate di un grafo della rete di apprendimento profondo sono ripartiti per le diverse aree del chip e l’esecuzione in parallelo.

Argomenti Correlati:

Big Data Analytics

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software