Vision är nästa stora utmaning för chips

0
171

Noll

linley-ceva.jpg

I mitt tidigare inlägg om den senaste tidens Linley Processor Konferens, som jag skrev om olika sätt som företag halvledare är att utveckla heterogena system för att nå högre nivåer av prestanda och effektivitet än med traditionell hårdvara. Ett av de områden där detta är mest angeläget är vision-bearbetning, en utmaning som fick en hel del uppmärksamhet på årets möte.

linley-ford.jpg
Kredit: Ford

Den uppenbara ansökan här är autonoma fordon. En av smutsiga hemligheter av självgående bilar är att dagens test fordon förlita sig på en koffert full av elektronik (se Fords senaste Fusion Hybrid självständiga utveckling fordonet nedan). Sensorer och program tenderar att vara de stora fokus, men det är fortfarande kräver en kraftfull PROCESSOR och flera Grafikprocessorer bränna hundratals watt för att bearbeta all data och fatta beslut i realtid. Tidigare denna månad, när Nvidia tillkännagav en framtida Kör PX Pegasus styrelsen, bolaget medgett att nuvarande hårdvara inte har kotletterna för helt autonom körning. “Verkligheten är att vi behöver mer hästkrafter för att komma till Nivå 5,” Danny Shapiro, Nvidia: s senior director of automotive enligt uppgift sagt till journalister.

Men det är inte bara bilindustrin. Inbäddade vision-processorer kommer att spela en stor roll i robotik, drönare, smarta övervakningskameror, virtual reality och augmented reality, och människa-maskin-gränssnitt. I en keynote, Chris Rowen, VD Cognite Ventures, sa att detta har lett till en silicon design renässans med etablerade IP-leverantörer som Kadens (Tensilica), Ceva, Intel (Mobileye), Nvidia, och Synopsys konkurrerar med 95 start-ups som arbetar på inbyggda vision i dessa områden-inklusive cirka 17 chip startups byggnad neurala motorer.

linley-cognite.jpg

Dedikerad neurala nätet DSPs kan leverera högre prestanda per watt för utmanande vision uppgifter. (Credit: Cognite Ventures)

I inbyggda vision, Pulin Desai, som en marknadsdirektör på Kadens sagt, det finns tre separata system för inferens: Fjärranalys (kameror, radar, lidar, mikrofoner), pre – och post-processing (brusreducering, bildstabilisering, HDR, etc.), och analys med neurala nätverk för ansikts-och objektigenkänning och gest upptäckt. Avkänning hanteras av sensorer och ISPs – (bild signalprocessorer) och pre – och post-behandling kan göras på ett Tensilica Vision DSP, men Kadens har en separat Tensilica Vision C5 DSP som är speciellt designade för att köras neurala nätverk.

Läs också: Intel lanserar självlärande AI-chip Loihi | Ingen hype, bara faktum: Artificiell intelligens i enkla termer verksamhet | Hur vi lärt oss att tala till datorer, och hur de lärt sig att svara tillbaka

Desai pratade om utmaningarna med att skapa ett SoC med inbyggt neurala motor för en produkt som inte kommer att nå marknaden förrän 2019 eller 2020. De beräkningar krav för neurala nätverk algoritmer för bildigenkänning har vuxit 16X i mindre än fyra år, sade han. Vid samma tid, neurala nät arkitekturer förändras snabbt och nya applikationer fram så hårdvaran måste vara flexibelt. Och den behöver för att hantera allt detta inom en snäv makt budget.

Visionen C5 är ett neuralt nätverk DSP (NNDSP) konstruerad för att hantera alla neurala nätverk lager med 1,024 8-bitars eller 512 16-bitars Mac-datorer i en enda kärna leverera en biljon Mac-datorer per sekund i en kvadrat millimeter från att dö området. Det kan skala till valfritt antal kärnor för högre prestanda och det är programmerbara. Tillverkas på TSMC: s 16nm process, en Vision C5 kör på 690MHz kan köra AlexNet sex gånger snabbare, Starten V3 upp till nio gånger snabbare, och ResNet50 upp till 4,5 gånger snabbare än “kommersiellt tillgänglig Gpu,” enligt Kadens.

linley-cadence.jpg

Visionen C5 är en fristående DSP som Kadens säger erbjuder den flexibilitet och muskler för neurala nätverk. (Credit: Kadens)

Den Kirin 970 i Huaweis nya Mate 10 och Mate 10 Pro är den första smartphone SoC med en dedikerad neurala processing unit kan 1.92 teraflops vid halv-precision (Kadens noterade detta flera gånger men gjorde inte det uttryckligen anges att den använder den Vision C5). Apples A11 Bionic har också ett neuralt motor och andra är noga med att följa. Visionen C5 är också inriktat på SoCs för övervakning -, fordons -, drönare, och personliga tillbehör.

De konkurrerande Ceva-XM Vision DSPs används redan i kameran moduler, inbäddade i Internetleverantörer som Rockchip är RK1608 eller som separata följeslagare marker för bildbehandling. Ceva: s lösning för neurala nätverk är att koppla ihop CEVA-XM med en separat CNN Hårdvara med upp till 512 MAC-enheter. Yair Siegel, Ceva: s marknadschef, talade om utvecklingen av neurala nätverk och sa att state-of-the-art CNNs är mycket krävande i fråga om beräkning och minnesbandbredd. Den Ceva: s Nätverk Generator omvandlar dessa modeller (i Caffe eller TensorFlow) att fasta punkt diagram och partitioner det att köra effektivt i hela Visionen DSP och Hårdvara. Ceva säger att acceleration ger en 10X i jämförelse med att använda DSP ensam på TinyYolo, en real-time objekt erkännande algoritm.

Läs också: Research alliance meddelar moonshot: Reverse engineering den mänskliga hjärnan | Intel presenterar Nervana Neurala Nätverk Processor | Google Pixel 2 har en hemlig chip som kommer att göra dina bilder bättre

Synopsys är att ta en liknande strategi med sin EV6x Inbäddade Vision-Processor, vilket kan kombinera upp till fyra Processorer (var och en med en skalär enhet och brett vektor DSP) med en valfri, programmerbara CNN Motorn att accelerera veck. CNN Motorn är skalbar från 880 till 1760 till 3520 Mac leverera upp till 4,5 biljoner Mac (eller totalt 9 teraflops) på TSMC: s 16nm process på 1.28 GHz. En enda EV61 vektor DSP med CNN motorn förbrukar mindre än en kvadrat millimeter dö, och Synopsys sade tandem är kapabel till 2 biljoner Mac per watt. Gordon Cooper, product marketing manager på Synopsys, betonade den täta integrationen mellan vektor DSPs) och CNN accelerator och sade att den levererade lösningen prestanda per watt för att hantera utmanande program som ADAS (advanced driver assistance system) för pedestrian detection.

linley-synopsys.jpg

Pedestrian detection illustrerar den ökande krav på behandling av ADAS och autonom körning. (Credit: Synopsys)

Qualcomms lösning på detta problem har varit att lägga till nya instruktioner, som heter Vector eXtensions eller HVX, till Hexagon DSPs i sin Snapdragon-Soc. Först infördes för två år sedan, dessa används redan för att driva HDR-fotografering funktioner för Pixel telefoner-trots Googles senaste utvecklingen av sin egen Pixel Visuella Core-och Google har tidigare visat hur en avlastning TensorFlow bild-erkännande nätverk från en quad-core PROCESSOR till en Hexagon DSP kan öka prestanda genom att 13x.

Men Rick Maule, en senior director of product management på Qualcomm, sade att under de senaste par åren har företaget lärt sig att kunder behöver mer processor cykler och snabbare minne tillgång. Qualcomms lösning är att fördubbla antalet beräkna element, öka frekvensen 50 procent, och bädda in low-latency-minne i dessa beräkna element. Dessa “förslag till förändringar” skulle öka prestanda från 99 miljarder Mac-datorer per sekund på den Snapdragon 820 till 288 miljarder Mac-datorer per sekund, vilket resulterar i en 3X hastighet-upp på Starten V3 bild-erkännande modell. Förutom förbättringar av prestanda, Qualcomm arbetar för att göra neurala nätverk lättare att programmet med sin Snapdragon Neurala Bearbetning Motor, och abstraction layer, och Halid, en domän-specifika språk för bildbehandling och beräkningsvetenskap fotografering.

Läs också: Obeveklig boom sätter stam på-ett-chip industri | Intel är självlärande AI-chip som syftar till att autonoma maskiner | chip-försäljningen slog rekord nivåer-innovation kostnaderna stiger

Medan alla dessa anmärkningsvärda framsteg, AImotive, en start baserad i Budapest, satsar på att bara specialbyggd hårdvara kommer att kunna leverera en komplett Nivå 5 autonoma system på under 50 watt. “Ingen av dagens hårdvara kan lösa de utmaningar vi står inför, säger Márton Fehér, chef för företagets aiWare hårdvara IP, med hänvisning till stora ingångar (streaming bilder och video), mycket djupt nätverk, och behovet av säker, realtid bearbetning.

Fehér sade att flexibel, för allmänna ändamål DNN-lösningar för inbyggda i realtid slutledning är ineffektiva eftersom de programmeringsbara är inte värt trade-off i prestanda per watt. Den aiWare arkitektur omfattar 96 procent till 100 procent av DNN verksamhet, maximerar MAC-användning, och minimerar användningen av externa minnet.

linley-aimotive.jpg

AImotive hävdar att endast specialbyggd hårdvara kommer att kunna uppfylla kraven för Nivå 5 autonomi. (Credit: AImotive)

Bolaget har för närvarande ett FPGA-baserat development kit och offentliga riktmärke svit, och det är att utveckla en test-chip, som tillverkas på GlobalFoundries 22nm FD-SOI-process, som kommer att finnas tillgängliga under första kvartalet 2018. Partners inkluderar Intel (Altera), Nvidia, NXP Semiconductors, och Qualcomm. AImotive har också utvecklat en aiDrive software suite för autonom körning och en driving simulator, och arbetar hos Bosch, PSA-Gruppen (Peugeot, Citroën, DS Bilar, Opel och Vauxhall), och Volvo, bland andra.

Det finns många olika strategier för att lösa utmaningarna med vision-bearbetning, en sak som alla på Linley Processor Konferensen överens om är att det kommer att ta mycket mer kraftfull hårdvara. Mängden data som kommer från sensorer är enorm, modeller blir allt större, och det måste alla behandlas i realtid med hjälp av mindre ström än dagens lösningar. Vi kommer sannolikt att se en hel del mer innovation inom detta område under de kommande åren som branschen brottas med dessa utmaningar.

Tidigare och relaterade täckning

Artificiell intelligens och integritet engineering: Varför det är viktigt NU

Tillväxten av AI och stora datamängder medföra stora risker för den personliga integriteten. Två experter förklara frågorna för att hjälpa ditt företag att hantera denna viktiga del av den teknik som landskap.

Chipmakers hitta nya sätt att gå framåt

Moores Lag är avtagande i en tid när nya program kräver mer muskler. Lösningen är att flytta jobb till specialiserad hårdvara men dessa komplexa, heterogena system kommer att kräva en ny strategi.

AI gå mobila processorer

Djupt lärande har redan haft en stor inverkan i datacentret. Nu är det att flytta till kanten så chipmakers lägga till neurala motorer till mobila processorer. Men Qualcomm, Intel och andra med mycket olika angreppssätt.

0