La visione è la prossima grande sfida per i chip

0
207

Zero

linley-ceva.jpg

Nel mio post precedente sui recenti Linley Processore Conferenza, ho scritto circa i modi in cui le aziende di semiconduttori stanno sviluppando sistemi eterogenei di raggiungere più elevati livelli di performance e di efficienza rispetto ai tradizionali hardware. Uno degli ambiti in cui questo è più urgente è la visione di elaborazione, una sfida che ha ottenuto un sacco di attenzione in conferenza di quest’anno.

linley-ford.jpg
Credito: Ford

La domanda ovvia è qui di veicoli autonomi. Uno dei segreti sporchi di self-driving cars è che oggi i veicoli di prova si basano su un baule pieno di elettronica (vedi Ford Fusion Hybrid sviluppo autonomo del veicolo sotto). I sensori e il software tendono ad essere il grande obiettivo, ma richiede comunque una CPU potente e più Gpu bruciare centinaia di watt per l’elaborazione di tutti questi dati e prendere decisioni in tempo reale. All’inizio di questo mese, quando Nvidia ha annunciato un futuro in Auto PX Pegasus consiglio, la società ha ammesso che l’hardware attuale non ha i baffi per la piena autonomia di guida. “La realtà è che abbiamo bisogno di più potenza per arrivare al Livello 5,” Danny Shapiro, Nvidia, senior director of automotive riferito, ha detto ai giornalisti.

Ma non è solo il settore automobilistico. Di visione Embedded, processori giocherà un ruolo importante nel campo della robotica, droni, smart telecamere di sorveglianza, la realtà virtuale e la realtà aumentata, e di interfacce uomo-macchina. In un intervento, Chris Rowen, il CEO di Cognite Venture, ha detto che questo ha portato ad una progettazione del silicio rinascimentale con stabilita IP fornitori come Cadenza (Tensilica), Ceva, Intel (Mobileye), Nvidia, e Synopsys, in competizione con il 95 start-up di lavoro su di visione embedded, anche in queste aree, tra cui alcuni 17 chip startup costruzione di motori neurali.

linley-cognite.jpg

Dedicato la rete neurale Dsp possono offrire una maggiore performance per watt per stimolante visione compiti. (Credit: Cognite Ventures)

Nella visione embedded, Pulin Desai, un direttore marketing a Cadenza detto, ci sono tre sistemi separati per inferenza: Rilevamento (telecamere, radar e lidar, microfoni, pre – e post-trattamento (riduzione del rumore, la stabilizzazione delle immagini, HDR, etc.), e l’analisi di reti neurali per il viso e per il riconoscimento di oggetti e gesti di rilevamento. La rilevazione è gestito da sensori e Isp (image signal processor) e il pre – e post-trattamento può essere fatto su una Tensilica Visione DSP, ma la Cadenza di un separato Tensilica Visione C5 DSP che è specificamente progettato per l’esecuzione di reti neurali.

Leggi anche: Intel annuncia di auto-apprendimento AI chip Loihi | Nessun hype, appena fatto: l’intelligenza Artificiale in semplici termini di business | Come abbiamo imparato a parlare di computer, e di aver imparato a rispondere

Desai parlato delle sfide per la creazione di un SoC con incorporato il motore neurale per un prodotto che non si raggiunge il mercato fino al 2019 o 2020. I requisiti di elaborazione per la rete neurale di algoritmi per il riconoscimento di immagini sono cresciuti 16X in meno di quattro anni, ha detto. Allo stesso tempo, la rete neurale architetture stanno cambiando rapidamente e le nuove applicazioni emergenti, in modo che l’hardware deve essere flessibile. E si deve gestire tutto questo all’interno di un bilancio di potenza limitato.

La Visione C5 è una rete neurale DSP (NNDSP) progettato per gestire tutte di rete neurale strati 1.024 8-bit o 512 16-bit Mac in un singolo core della consegna di un trilione di Mac al secondo in un millimetro quadrato di area di matrice. Può adattarsi a qualsiasi numero di core per prestazioni più elevate ed è programmabile. Fabbricato su TSMC è 16nm processo, una Visione C5 in esecuzione a 690MHz possibile eseguire AlexNet sei volte più veloce, Inizio V3 è fino a nove volte più veloce, e ResNet50 fino a 4,5 volte più veloce “disponibili in commercio Gpu”, secondo la Cadenza.

linley-cadence.jpg

La Visione C5 è autonomo DSP che Cadenza dice fornisce la flessibilità muscolare e per le reti neurali. (Credit: Cadenza)

Il Kirin 970 in Huawei nuovo Compagno di 10 e Compagno di 10 Pro è il primo smartphone SoC con neurale dedicato unità di elaborazione in grado di 1,92 teraflops a metà precisione (Cadenza notato diverse volte, ma non specifica che utilizza la Visione C5). Apple A11 Bionic ha anche un motore neurale e altri sono sicuri di seguire. La Visione C5 è anche mirata a Soc per la sorveglianza, automotive, droni, e capi d’abbigliamento.

La competizione di Ceva-XM Visione Dsp sono già utilizzati in moduli fotocamera, incorporato in Isp come Rockchip del RK1608 o come un compagno di chip per l’elaborazione dell’immagine. Ceva soluzione per le reti neurali è quello di abbinare la CEVA-XM con separata CNN Acceleratore Hardware con fino a 512 MAC unità. Yair Siegel, di Ceva, direttore marketing, ha parlato della crescita di reti neurali e ha detto che lo stato-of-the-art CNNs sono estremamente esigenti in termini di calcolo e di larghezza di banda di memoria. Il Network di Ceva Generatore converte questi modelli (nel Caffe o TensorFlow) a fixed-point e il grafico di partizioni per eseguire in modo efficiente attraverso la Visione di DSP e Acceleratore Hardware. Ceva dice che l’Hardware Accelerator offre un 10X in confronto all’utilizzo di DSP da solo sul TinyYolo, in tempo reale oggetto di un algoritmo di riconoscimento.

Leggi anche: Research alliance annuncia sbarco sulla luna: il Reverse engineering del cervello umano | Intel svela il Nervana Rete Neurale Processore | Google Pixel 2 ha un segreto chip che renderà le vostre foto migliori

Synopsys è l’assunzione di un approccio simile con la sua EV6x di Visione Embedded, Processore, che può combinare fino a quattro Cpu (ognuna con uno scalare unità e ampia vettoriale DSP) con un opzionale, programmabile CNN Motore per accelerare la convoluzione. La CNN Motore è scalabile da 880 a 1760, a 3520 Mac erogare fino a 4,5 trilioni di Mac (o un totale di 9 teraflops) su TSMC è 16nm processo 1.28 GHz. Un singolo EV61 vettoriale DSP con CNN motore consuma meno di un millimetro quadrato di area di matrice e Synopsys, ha detto che il tandem è in grado di 2 trilioni di Mac per watt. Gordon Cooper, un product marketing manager Synopsys, ha sottolineato la stretta integrazione tra il vettore di Dsp e la CNN acceleratore e ha detto che la soluzione consegnato le prestazioni per watt per gestire applicazioni impegnative come ADAS (advanced driver assistance system) per il rilevamento di pedoni.

linley-synopsys.jpg

Rilevamento di pedoni illustra i crescenti requisiti di elaborazione per ADAS e autonoma di guida. (Credit: Synopsys)

Qualcomm soluzione a questo problema è stata quella di aggiungere nuove istruzioni, chiamato Vector eXtensions o HVX, la Hexagon Dsp nel suo Snapdragon Soc. Introdotto due anni fa, questi sono già utilizzati per l’alimentazione della fotografia HDR caratteristiche di Pixel telefoni-nonostante Google recente sviluppo della propria Pixel Visual Core-e Google ha già dimostrato come scarico un TensorFlow immagine-riconoscimento di rete da una CPU quad-core per un Hexagon DSP in grado di incrementare le prestazioni da 13x.

Ma Rick Maule, senior director del product management di Qualcomm, ha detto che negli ultimi due anni la società ha imparato che i clienti hanno bisogno di più cicli di processore e memoria più veloce accesso. Qualcomm soluzione è di raddoppiare il numero di calcolare gli elementi, aumentare la frequenza del 50 per cento, e incorporare a bassa latenza di memoria in quei calcolare gli elementi. Queste “modifiche proposte” vorresti aumentare le prestazioni da 99 miliardi Mac ogni secondo Snapdragon 820 a 288 miliardi Mac al secondo, con un conseguente 3X velocità-fino a Inizio V3 immagine-modello di riconoscimento. Oltre ai miglioramenti di prestazioni, Qualcomm sta lavorando per rendere le reti neurali più facile da programmare con il suo Snapdragon Neurale Motore di Elaborazione, e il livello di astrazione, e Ioduri, un dominio di un linguaggio specifico per l’elaborazione di immagini e fotografia computazionale.

Leggi anche: Inarrestabile boom gravano sul chip industria | Intel auto-apprendimento AI chip rivolto autonoma macchine | chip delle vendite ha colpito livelli record-l’innovazione i costi aumentano

Mentre questi sono tutti notevoli progressi, AImotive, una startup con sede a Budapest, è una scommessa che solo costruito allo scopo di hardware sarà in grado di fornire un Livello completo di 5 sistema autonomo di sotto dei 50 watt. “Nessuno di hardware di oggi in grado di risolvere le sfide che dobbiamo affrontare”, ha detto Márton Fehér, il capo della società aiWare hardware IP, citando ampi ingressi (streaming, immagini e video), molto profondo reti, e la necessità per la sicurezza, l’elaborazione in tempo reale.

Fehér detto che flessibili DNN soluzioni per l’embedded e real-time di inferenza sono inefficienti, perché la programmazione non è un valore di trade-off in termini di prestazioni per watt. Il aiWare architettura copre il 96 per cento al 100 per cento del DNN operazioni, massimizza il MAC di utilizzo, e di ridurre l’uso di memoria esterna.

linley-aimotive.jpg

AImotive sostiene che il solo scopo di costruzione hardware sarà in grado di soddisfare i requisiti di Livello 5 autonomia. (Credit: AImotive)

Attualmente l’azienda dispone di un FPGA kit di sviluppo e di pubblico benchmark suite, ed è lo sviluppo di un chip di test, realizzati su GlobalFoundries 22nm FD-SOI processo, che sarà disponibile nel primo trimestre del 2018. Sono partner di Intel (Altera), Nvidia, NXP Semiconductors, e Qualcomm. AImotive ha, inoltre, sviluppato un aiDrive suite di software per la autonoma di guida e di un simulatore di guida, e sta lavorando con Bosch, il Gruppo PSA (Peugeot, Citroën, DS Automobili di Opel e Vauxhall), e Volvo, tra gli altri.

Mentre ci sono molti approcci diversi per risolvere le sfide con la visione di elaborazione, l’unica cosa che tutti i Linley Processore Conferenza concordato è che sta andando a prendere molto più potente hardware. La quantità di dati provenienti da sensori è enorme, i modelli sono sempre più grande, e ha bisogno di tutti per essere elaborati in tempo reale utilizzando meno energia rispetto alle soluzioni attuali. Siamo probabilmente di vedere molto di più l’innovazione in questo settore nei prossimi anni il settore è alle prese con questi problemi.

Precedente e relativa copertura

L’intelligenza artificiale e la privacy di ingegneria: Perché è importante ORA

La crescita di AI e di grandi insiemi di dati comportare grandi rischi per la privacy. Due esperti di alto spiegare i problemi per aiutare la vostra azienda a gestire questa parte fondamentale del panorama tecnologico.

I produttori di chip a trovare nuovi modi per andare avanti

La Legge di Moore sta rallentando in un momento in cui le applicazioni sono sempre più esigenti muscolare. La soluzione è di distribuire posti di lavoro per hardware specializzato, ma questi complessi, eterogenei sistemi richiedono un nuovo approccio.

AI processori go mobile

Deep learning è già avendo un grande impatto nel data center. Adesso si sta spostando a bordo come produttori di chip aggiungere neurale motori di processori mobili. Ma Qualcomm, Intel e altri prendono approcci molto diversi.

0