Vision er den næste store udfordring for chips

0
180

Nul

linley-ceva.jpg

I mit tidligere indlæg om den seneste Linley Processor Konference, jeg skrev om, hvordan der halvleder virksomheder er ved at udvikle heterogene systemer til at nå højere niveauer af ydeevne og effektivitet, end med traditionelle hardware. Et af de områder, hvor det er mest akut behov for vision behandling, en udfordring, der fik en masse opmærksomhed ved dette års konference.

linley-ford.jpg
Kredit: Ford

Den indlysende ansøgning her er autonome køretøjer. En af de beskidte hemmeligheder selvkørende biler er, at dagens test køretøjer, der er afhængige af en kuffert fuld af elektronik (se Fords seneste Fusion Hybrid autonome udvikling køretøj nedenfor). Sensorer og software har en tendens til at være den store fokus, men det kræver stadig en stærk CPU og flere Gpu ‘ er afbrænding af hundredvis af watt for at behandle alle disse data og træffe beslutninger i realtid. Tidligere i denne måned, når Nvidia annoncerede en kommende Drev PX Pegasus bestyrelsen, virksomheden har erkendt, at den nuværende hardware ikke har koteletter for fuldt autonome kørsel. “Virkeligheden er, at vi har brug for flere hestekræfter for at komme til Level 5,” Danny Shapiro, Nvidia ‘ s ledende direktør af biler efter sigende fortalte journalister.

Men det er ikke kun biler. Indlejrede vision processorer vil spille en stor rolle i robotter, droner, intelligente overvågningskameraer, virtual reality og augmented reality, og menneske-maskine-grænseflader. I en keynote, Chris Rowen, den administrerende DIREKTØR for Cognite Ventures, sagde, at dette har ført til en silicium design renæssance med fast IP-leverandører såsom Kadence (Tensilica), og en anden ting, Intel (Mobileye), Nvidia, og Synopsys, der konkurrerer med 95 start-ups, der arbejder på indlejrede vision i disse områder-herunder nogle, 17 chip nystartede opbygning af neurale motorer.

linley-cognite.jpg

Dedikeret neurale net DSPs kan levere højere ydelse per watt for udfordrende vision opgaver. (Credit: Cognite Ventures)

I indlejrede vision, Pulin Desai, marketing direktør i Kadence er sagt, er der tre separate systemer for inferens: Sensing (kameraer, radar og lidar, mikrofoner), præ – og post-behandling (noise reduction, billedstabilisering, HDR, etc.), og analyse med neurale netværk til ansigt og objekt anerkendelse og gestus afsløring. Sensing varetages af sensorer og Internetudbydere (billede signal-processorer) og pre – og post-behandling kan ske på et Tensilica Vision DSP, men Kadence har en separat Tensilica Vision C5 DSP , der er specifikt designet til at køre neurale netværk.

Læs også: Intel annoncerer self-learning AI chip Loihi | Ingen hype, bare fakta: Kunstig intelligens i simpel form|, Hvor vi lærte at tale til computere, og hvordan de har lært at svare tilbage

Desai talte om udfordringerne i at skabe en SoC med en indbygget neurale motor for et produkt, der ikke vil nå markedet, indtil 2019 eller 2020. Den beregningsmæssige krav til neurale netværk algoritmer til billed-genkendelse er vokset 16X i mindre end fire år, sagde han. På samme tid, neurale netværk arkitekturer er under hastig forandring, og nye programmer er på vej, så den hardware, der skal være fleksibelt. Og den har brug for til at håndtere alt dette inden for et stramt magt budget.

Visionen C5 er et neuralt netværk DSP (NNDSP), som er designet til at håndtere alle neurale netværk lag med 1,024 8-bit eller 512 16-bit Mac-computere i en enkelt kerne levere en billion Mac ‘ er per sekund i en kvadrat millimeter af die område. Det kan skalere til et vilkårligt antal af kerner for højere ydeevne, og det er programmerbare. Fremstillet på TSMC ‘ s 16nm proces, en Vision C5 kører på 690MHz kan køre AlexNet seks gange hurtigere, Start V3 op til ni gange hurtigere, og ResNet50 op til 4,5 gange hurtigere end “kommercielt tilgængelige Gpu’ er,” efter at Kadence.

linley-cadence.jpg

Visionen C5 er et selvstændigt DSP, at Kadence siger, giver den fleksibilitet og muskel for neurale netværk. (Credit: Kadence)

Den Kirin 970 i Huawei Mate ‘ s nye 10-og Mate 10 Pro er den første smartphone SoC med en dedikeret neural processing unit i stand til 1.92 teraflops på halv-præcision (Kadence bemærkede, at dette flere gange, men ikke specifikt, at det bruger Vision C5). Apple ‘ s A11 Bionic har også en neurale motor-og andre er sikker på at følge. Visionen C5 er også målrettet på SoCs for overvågning, automotive, droner, og wearables.

De konkurrerende Ceva-XM Vision DSPs anvendes allerede i kameraet moduler, der er indlejret i Internetudbydere som Rockchip er RK1608, eller som en separat følgesvend chips til billedbehandling. Ceva ‘ s løsning til neurale netværk er at parre CEVA-XM med en separat CNN hardwareaccelerator med op til 512 MAC-enheder. Yair Siegel, Ceva ‘ s marketing director, talte om vækst i neurale netværk og sagde, at state-of-the-art CNNs er meget krævende i form af regnekraft og hukommelse båndbredde. Den anden ting Netværk Generator omdanner disse modeller (i Caffe eller TensorFlow) til faste punkt graf og partitioner det til at køre effektivt på tværs af den Vision, DSP og Hardware Accelerator. Ceva siger, at hardwareaccelerator leverer en 10X i forhold til brug af DSP alene på TinyYolo, en real-tid gøre indsigelse mod, anerkendelse algoritme.

Læs også: Forskning alliance offentliggør moonshot: Reverse engineering, den menneskelige hjerne | Intel løfter sløret for det Nervana Neurale Netværk Processor | Googles Pixel 2 har en hemmelighed chip, som vil gøre dine billeder bedre

Synopsys er ved at tage en lignende tilgang med sin EV6x Indlejret Vision Processor, som kan kombinere op til fire Cpu ‘ er (hver med en skalar enhed og bred vektor DSP) med en valgfri, programmerbare CNN Motor til at accelerere snoninger. CNN Motoren er skalerbar fra 880 til 1760 til 3520 MACs levere op til 4,5 billioner Mac-computere (eller en total af 9 teraflops) på TSMC ‘ s 16nm proces på 1.28 GHz. En enkelt EV61 vektor DSP med CNN motor bruger mindre end en kvadratmeter millimeter af die område, og Synopsys sagde tandem er i stand til 2 billioner Mac-computere pr watt. Gordon Cooper, en product marketing manager hos Synopsys, understregede den tætte integration mellem vektor DSPs og CNN-accelerator, og sagde, at den løsning, der leveres den ydelse per watt til at håndtere udfordrende applikationer såsom ADAS (advanced driver assistance system) for fodgængere påvisning.

linley-synopsys.jpg

Pedestrian detection illustrerer den eskalerende behandling af krav for ADAS og autonome kørsel. (Credit: Synopsys)

Qualcomm ‘ s løsning på dette problem har været at tilføje nye instruktioner, kaldet Vector eXtensions eller HVX, at den Sekskant DSPs i sin Snapdragon SoCs. Først blev indført for to år siden, disse er allerede anvendt til magten HDR-fotografering funktioner på Pixel-telefoner-på trods af Googles seneste udvikling af sin egen Pixel Visuelle Kerne-og Google har tidligere demonstreret, hvordan en aflastning TensorFlow billede-anerkendelse netværk fra en quad-core CPU til en Sekskant, DSP kan øge performance af 13x.

Men Rick Maule, senior-director of product management hos Qualcomm, sagde, at i løbet af de seneste par år, hvor virksomheden har erfaret, at kunderne har brug for mere processor cykler og hurtigere hukommelse, der er inkluderet. Qualcomm ‘ s løsning er at fordoble antallet af beregne elementer, øge frekvensen 50 procent, og integrere low-latency hukommelse i dem, beregne elementer. Disse “planlagte ændringer” ville øge ydeevnen fra 99 millioner Mac ‘er per sekund på Snapdragon 820 til 288 millioner Mac’ er per sekund, hvilket resulterer i en 3X hastighed-op på Starten V3 billede-anerkendelse model. Ud over forbedringer af ydeevnen, Qualcomm arbejder på at gøre neurale netværk nemmere at programmere med sin Snapdragon Neural Processing Engine, og abstraktion, og Halogenid, et domæne-specifikke sprog til billedbehandling og beregningsmæssige fotografering.

Læs også: Benhård boom lægger pres på chip-industrien | Intel ‘ s self-learning AI-chip, der tager sigte på autonome maskiner | Som chip salg hit rekord niveauer-innovation omkostninger stige

Mens disse er alle bemærkelsesværdige fremskridt, AImotive, en start baseret i Budapest, satser, der kun er bygget til formålet hardware vil være i stand til at levere en komplet Niveau 5 autonome system på under 50 watt. “Ingen af i dag’ s hardware kan løse de udfordringer, vi står over for,” sagde Márton Fehér, der er leder af virksomhedens aiWare hardware IP, citerer store indgange (streaming af billeder og video), meget dybe netværk, og behovet for en sikker, real-time behandling.

Fehér sagde, at der er fleksible, almene formål DNN løsninger til embedded real-time inferens er ineffektiv, fordi den programmerbarhed ikke er værd at trade-off i ydelse per watt. Den aiWare arkitektur dækker 96 procent til 100 procent af den DNN operationer, maksimerer MAC udnyttelse, og minimerer brugen af eksterne hukommelse.

linley-aimotive.jpg

AImotive argumenterer for, at det kun er bygget til formålet hardware vil være i stand til at opfylde kravene i Niveau 5 autonomi. (Credit: AImotive)

Selskabet har i dag en FPGA-baserede development kit og offentlige benchmark suite, og det er ved at udvikle en test chip fremstillet på GlobalFoundries 22nm FD-SOI proces, der vil være tilgængelige i første kvartal af 2018. Partnere inkluderer Intel (Er), Nvidia, NXP Semiconductors, og Qualcomm. AImotive har også udviklet en aiDrive software suite for autonome kørsel og en køresimulator, og arbejder med Bosch, PSA Gruppen (Peugeot, Citroën, DS Biler, Opel og Vauxhall), og Volvo, blandt andre.

Mens der er mange forskellige tilgange til at løse de udfordringer, der er med vision behandling, den ene ting, som alle ved Linley Processor Konferencen enige om, er, at det kommer til at tage meget mere kraftfuld hardware. Mængden af data, der kommer fra sensorer er enorme, og de modeller, der vokser sig større, og det hele skal behandles i real-time ved hjælp af mindre strøm end de nuværende løsninger. Vi er tilbøjelige til at se en masse mere innovation på dette område i løbet af de næste par år, da industrien gribere med disse udfordringer.

Tidligere og relaterede dækning

Kunstig intelligens og privatliv engineering: Hvorfor er det, der betyder noget NU

Væksten i AI og store datasæt udgør store risici for privatlivets fred. To førende eksperter forklare de spørgsmål, du kan hjælpe din virksomhed med at administrere denne afgørende del af den teknologi landskab.

Chip-producenter at finde nye måder at bevæge sig fremad

Moore ‘ s Lov er aftagende i en tid, hvor nye applikationer kræver flere muskler. Løsningen er at aflaste job til specialiseret hardware, men disse komplekse og heterogene systemer vil kræve en ny tilgang.

AI-processorer gå mobile

Dyb læring i forvejen har en stor indvirkning på data center. Nu er det bevæger sig til kanten, da chip-producenter tilføje neurale motorer til mobile processorer. Men Qualcomm, Intel og andre er under meget forskellige tilgange.

0