Visie is de volgende grote uitdaging voor chips

0
106

Nul

linley-ceva.jpg

In mijn vorige post op de recente Linley Processor Conferentie, schreef ik over de manieren waarop semiconductor bedrijven de ontwikkeling van heterogene systemen naar een hoger niveau van prestaties en efficiëntie in vergelijking met de traditionele hardware. Een van de gebieden waar dit het hardst nodig is visie verwerking, een uitdaging die heel veel aandacht op de conferentie van dit jaar.

linley-ford.jpg
Credit: Ford

De voor de hand liggende toepassing hier is de autonome voertuigen. Een van de vuile geheimen van zelf-rijdende auto ‘s is dat de test van vandaag voertuigen rekenen op een koffer vol elektronica (zie Ford’ s nieuwste Fusion Hybrid autonome ontwikkeling voertuig hieronder). Sensoren en software hebben de neiging om de grote nadruk, maar het vereist nog steeds een krachtige CPU en meerdere Gpu ‘ s branden honderden watts te verwerken al deze gegevens en beslissingen te nemen in real-time. Eerder deze maand, wanneer de Nvidia kondigde een toekomstige Station PX Pegasus raad van bestuur, het bedrijf gaf toe dat de huidige hardware niet de koteletten voor volledig autonoom rijden. “De realiteit is dat we moeten meer pk’ s te krijgen tot Niveau 5,” Danny Shapiro, Nvidia ‘ s senior director van auto-naar verluidt vertelde de journalisten.

Maar het is niet alleen de automotive sector. Embedded vision processors zal een grote rol spelen in de robotica, drones, intelligente bewakingscamera ‘ s, virtual reality en augmented reality, en mens-machine interfaces. In een keynote, Chris Rowen, de CEO van Cognite Ventures, zei dat dit heeft geleid tot een siliconen ontwerp renaissance met de bestaande IP-leveranciers zoals Cadans (Tensilica), Ceva, Intel (Mobileye), Nvidia, en Synopsys concurreren met 95 start-ups-het werken op embedded vision in deze gebieden-waaronder een aantal 17-chip startups gebouw neurale motoren.

linley-cognite.jpg

Speciale neurale net DSPs kan leveren hogere prestaties per watt voor uitdagende visie taken. (Credit: Cognite Ventures)

In de embedded vision, Pulin Desai, marketing director bij Cadans zei: er zijn drie verschillende systemen voor de inferentie: Sensing (camera ‘ s, radar en lidar, microfoons), pre – en post-processing (noise reduction (beeldstabilisatie, HDR, enz.), en analyse met neurale netwerken voor gezicht en object herkenning en gebaar detectie. De detectie wordt afgehandeld door sensoren en Isp (image signal processors) en de pre – en post-processing kan worden gedaan op een Tensilica Visie DSP, maar de Cadans heeft een aparte Tensilica Visie C5 DSP , die speciaal is ontworpen voor het uitvoeren van neurale netwerken.

Lees ook: Intel kondigt het zelf-lerende AI chip Loihi | Geen hype, gewoon een feit: de Kunstmatige intelligentie in eenvoudige voorwaarden en | Hoe hebben we geleerd om te praten met computers, en hoe ze geleerd om te antwoord terug

Desai gesproken over de uitdagingen van het creëren van een SoC met een ingesloten neurale motor voor een product dat niet op de markt komen tot 2019 of 2020. De rekenkundige vereisten voor het neurale netwerk algoritmen voor het imago van de erkenning gegroeid 16X in minder dan vier jaar, zei hij. Op hetzelfde moment, neurale netwerk architecturen zijn snel aan het veranderen en nieuwe toepassingen zijn in opkomst, zodat de hardware flexibel dient te zijn. En het moet verwerken dit alles binnen een strakke power begroting.

De Visie C5 is een neuraal netwerk DSP (NNDSP) ontworpen voor het verwerken van alle neurale netwerk lagen met 1024 8-bit of 512 16-bits Mac ‘ s in een single core leveren van één biljoen MACs per seconde op een vierkante millimeter van die gebied. Het kan worden aangepast om een aantal kernen voor hogere prestaties en is programmeerbaar. Vervaardigd op TSMC ‘ s 16nm proces, een Visie C5 draait op 690MHz kunnen uitvoeren AlexNet zes keer sneller, Aanvang V3 tot negen keer sneller, en ResNet50 tot 4,5 keer sneller dan met “in de handel verkrijgbaar Gpu’ s,” aldus Cadans.

linley-cadence.jpg

De Visie C5 is een zelfstandige DSP dat Cadans zegt biedt de flexibiliteit en de spieren voor neurale netwerken. (Credit: Cadans)

De Kirin 970 in Huawei ‘ s nieuwe Partner 10 en maat 10 Pro is de eerste smartphone SoC met een speciale neurale verwerking eenheid staat van 1,92 teraflops op de helft van precisie (Cadans merkte dit een aantal keer, maar niet specifiek aangegeven dat het gebruik maakt van de Visie C5). Apple ‘ s A11 Bionic heeft ook een neurale motor en anderen zullen zeker volgen. De Visie C5 is ook gericht op de SoCs voor de bewaking, de automobielindustrie, de drones, en wearables.

De concurrerende Ceva-XM Visie dsp ‘s zijn al gebruikt in de camera modules, ingebed in Isp’ s zoals Rockchip de RK1608 of als afzonderlijke metgezel chips voor beeldverwerking. Ceva ‘ s oplossing voor neurale netwerken te koppelen van het CEVA-XM met een aparte CNN Hardware Accelerator met maximaal 512 MAC-eenheden. Yair Siegel, Ceva ‘ s marketing director, sprak over de groei van neurale netwerken en zei dat state-of-the-art CNNs worden zeer hoge eisen worden gesteld in termen van rekenkracht en geheugen bandbreedte. De Ceva Netwerk Generator zet deze modellen (in Caffe of TensorFlow) naar een vast punt grafiek en partities om efficiënt te draaien over de Visie van DSP en Hardware Accelerator. Ceva zegt dat de Hardware Accelerator biedt een 10X in vergelijking met het gebruik van de DSP alleen op TinyYolo, een real-time object erkenning algoritme.

Lees ook: Research alliance kondigt moonshot: Reverse engineering van de menselijke hersenen | Intel onthult de Nervana Neurale Netwerk Processor | Google-Pixel 2 heeft een geheime chip die uw foto ‘ s beter

Synopsys is het nemen van een soortgelijke aanpak met de EV6x Embedded Vision-Processor, die kan combineren tot vier Cpu ‘ s (elk met een scalaire eenheid en breed vector DSP) met een optionele programmeerbare CNN Motor te versnellen windingen. De CNN-Motor is schaalbaar van 880 1760 te 3520 MACs leveren tot 4,5 biljoen MACs (of een totaal van 9 teraflops) op TSMC ‘ s 16nm proces op 1,28 GHz. Een enkele EV61 vector DSP met CNN-engine maakt gebruik van minder dan één vierkante millimeter van die gebied en Synopsys zegt de tandem is geschikt van 2 biljoen MACs per watt. Gordon Cooper, een product marketing manager bij Synopsys, benadrukt de nauwe integratie tussen de vector DSPs en de CNN-accelerator en zei dat de oplossing van de geleverde prestaties per watt te behandelen uitdagende toepassingen zoals ADAS (advanced driver assistance system) voor voetgangers detectie.

linley-synopsys.jpg

Pedestrian detection illustreert de toenemende verwerking van de eisen voor BEHEER en autonoom rijden. (Credit: Casio Benelux B.v.)

Qualcomm ‘ s oplossing voor dit probleem is het toevoegen van nieuwe instructies, de zogenaamde Vector eXtensions of HVX, de Zeshoek DSPs in de Snapdragon SoCs. Eerst twee jaar geleden ingevoerd, deze worden al gebruikt om de macht van de HDR-fotografie functies op Pixel-telefoons-ondanks Google ‘ s recente ontwikkeling van haar eigen Pixel Visuele Kern-en Google heeft eerder aangetoond hoe lossen van een TensorFlow afbeelding-erkenning netwerk van een quad-core CPU en een Zeshoek DSP kan verhogen de prestaties door 13x.

Maar Rick Maule, senior director product management bij Qualcomm, zei dat in de afgelopen paar jaar heeft de onderneming geleerd dat klanten behoefte aan meer processor capaciteit en sneller geheugen. Qualcomm ‘ s oplossing is een verdubbeling van het aantal berekenen elementen, verhogen van de frequentie van 50 procent, en het insluiten van een low-latency geheugen, in die berekenen elementen. Deze “wijzigingsvoorstel” zou het verhogen van de prestaties van 99 miljard MACs per seconde op de Snapdragon 820 288 miljard MACs per seconde, wat resulteert in een 3X speed-up op de start V3 afbeelding-erkenning model. In aanvulling op de prestaties, Qualcomm werkt aan het maken van neurale netwerken eenvoudiger te programmeren met de Snapdragon Neurale Verwerking van de Motor, en abstraction layer, en Halide, een domein-specifieke taal voor beeldverwerking en computational fotografie.

Lees ook: een Meedogenloze boom zet spanning op de chip-industrie | Intel ‘ s self-learning AI chip gericht op autonome machines | Als chip verkoop-hit niveaus — innovatie kosten stijgen

Hoewel deze zijn allemaal opmerkelijke vooruitgang, AImotive, een startup gevestigd in Boedapest, wedden dat doel gebouwde hardware kunnen leveren van een compleet Level 5 autonoom systeem onder de 50 watt. “Geen van de huidige hardware kan het oplossen van de uitdagingen waar we voor staan,” zei Márton Fehér, het hoofd van de onderneming aiWare hardware IP, het citeren van de grote productiemiddelen (streaming beelden en video), heel diep netwerken, en de behoefte aan een veilige, real-time verwerking.

Fehér zei dat flexibel, algemene-doel DNN oplossingen voor geïntegreerde, real-time gevolgtrekking zijn inefficiënt omdat de programmeerbaarheid niet de moeite waard is de trade-off in de prestaties per watt. De aiWare architectuur heeft betrekking op 96 procent tot 100 procent van de DNN-operaties, maximaliseert MAC gebruik, en minimaliseert het gebruik van extern geheugen.

linley-aimotive.jpg

AImotive betoogt dat het enige doel gebouwde hardware in staat zal zijn om te voldoen aan de eisen van Niveau 5 van de autonomie. (Credit: AImotive)

Het bedrijf heeft momenteel een FPGA-gebaseerde development kit en openbare benchmark suite, en het is het ontwikkelen van een test chip, vervaardigd op GlobalFoundries de 22nm-FD-SOI proces, dat beschikbaar zal zijn in het eerste kwartaal van 2018. Partners zijn onder andere Intel (Altera), Nvidia, NXP Semiconductors en Qualcomm. AImotive heeft ook een aiDrive software suite voor autonoom rijden en een driving simulator, en werkt met Bosch, de PSA-Groep (Peugeot, Citroën DS Auto ‘ s, Opel en Vauxhall), en Volvo, onder anderen.

Hoewel er vele verschillende benaderingen voor het oplossen van de uitdagingen met visie, het verwerken, het een ding dat iedereen op de Linley Processor Conferentie afgesproken is dat het gaat om veel meer krachtige hardware. Het bedrag van de gegevens afkomstig van de sensoren is enorm, de modellen worden steeds groter, en het moet allemaal verwerkt worden in real-time door het gebruik van minder energie dan de huidige oplossingen. We zijn waarschijnlijk om veel meer te zien van de innovatie in dit gebied de komende jaren als de industrie worstelt met deze uitdagingen.

Vorige en aanverwante dekking

De kunstmatige intelligentie en de privacy engineering: Waarom het van belang is NU

De groei van AI en grote datasets vormen grote risico ‘ s voor de privacy. Twee top-experts leggen uit de problemen te helpen uw bedrijf te beheren dit cruciale onderdeel van het technologische landschap.

Chipmakers het vinden van nieuwe manieren om vooruit te gaan

De Wet van Moore is het vertragen in een tijd waarin nieuwe applicaties zijn veeleisend voor meer spiermassa. De oplossing is op het terugdringen van taken aan gespecialiseerde hardware, maar deze complexe, heterogene systemen vereisen een nieuwe aanpak.

AI processors gaan mobiel

Diep leren is nu al een grote impact hebben in het datacenter. Nu door naar de rand, zoals chipmakers toevoegen neurale motoren voor mobiele processors. Maar Qualcomm, Intel en anderen nemen heel verschillende benaderingen.

0