NORSK

Golf Computing dicht bij de onthulling van de eerste AI-systeem

143

Nul

De snelle evolutie van diep leren is gestart met een AI wapenwedloop. Vorig jaar, venture capitalists, schonk meer dan $1,5 miljard in de halfgeleider -, start-ups en er zijn nu zo ‘ n 45 bedrijven het ontwerpen van chips gebouwd voor kunstmatige intelligentie taken, zoals Google met zijn Tensor Processing Unit (TPU). Na rustig testen zijn “early access” systeem voor bijna een jaar, één van deze startups -, Golf -, Computing, is dicht bij het bekendmaken van de eerste commerciële product. En het is veelbelovend dat een nieuwe aanpak levert een aantal grote winsten in termen van prestaties en het gebruiksgemak voor de opleiding van neurale netwerken.

“Een aantal van de bedrijven zal TPU knock-offs, maar dat is niet wat we doen–dit was een multi-jaar, multi-miljoenen dollars poging om het ontwikkelen van een volledig nieuwe architectuur, de” CEO Derek Meyer zei in een interview. “Een aantal van de resultaten zijn gewoon echt geweldig.”

Met uitzondering van Google ‘s TPUs, de overgrote meerderheid van de training is momenteel gedaan op standaard Xeon servers met Nvidia Gpu’ s voor de versnelling. Wave ‘ s dataflow architectuur is anders. De Dataflow Processing Unit (DPU) heeft geen behoefte aan een host-CPU en bestaat uit duizenden kleine, self-time verwerking van de elementen die zijn ontworpen voor de 8-bits integer operaties vaak gebruikt in neurale netwerken.

Vorige week maakte het bedrijf bekend dat het gebruik van 64-bit MIPS kernen in de toekomst ontwerpen, maar dit is echt voor huishoudelijke klusjes. De eerste generatie Golf van commissarissen maakt reeds gebruik van een Andes N9 32-bit microcontroller voor deze taken, zodat MIPS64 zal een upgrade zijn, dat geeft de system agent hetzelfde 64-bits adresruimte als de DPU evenals ondersteuning voor multi-threading, zodat taken kunnen uitvoeren op hun eigen logische processors. (Meyer en anderen aan het management team werkte eerder bij MIPS, en de Golf is ondersteund door Tallwood, dezelfde venture capital bedrijf dat recent verworven MIPS van Imagination Technologies voor $65 miljoen.)

Maar dat is voor toekomstige processors. Het huidige ontwerp bestaat uit duizenden onafhankelijke verwerking van de elementen, elk met zijn eigen instructie geheugen, geheugen, register en een 8-bit logische eenheid. Deze zijn gegroepeerd in clusters, die elk bevatten 16 de verwerking van elementen en extra compute units, waaronder twee 32-bit MAC (vermenigvuldigen-accumuleren) eenheden voor het uitvoeren van een aantal van de belangrijkste rekenkundige functies in convolutional neurale netwerken (CNNs).

Geproduceerd door TSMC op een 16nm proces, de Dataflow Processing Unit (DPU) bevat het 1.024 van deze clusters voor een totaal van 16384 en verwerking van elementen met een mesh interconnect. Deze zijn gegroepeerd in een array van 24 Berekenen van Machines, elk met 32 of 64 clusters en een bus die aansluit op het geheugen en de I/O. Het heeft een maximale capaciteit van 181 biljoen 8-bits integer operaties per seconde, maar de 2,048 MAC-eenheden (8 biljoen MACs per seconde) moet leveren tot 16 teraops.

Wave ‘ s doel is niet om deze te verkopen chips. In plaats daarvan wil zij een volledige AI-systeem. De beta van commissarissen heeft vier DPUs (65.536 zijn de verwerking van elementen) 256GB DDR4-systeem geheugen en 8 gb high-bandwidth DRAM (vier 2GB Hybrid Memory Cube-stacks). Een PCI-Express switch, verbindt het met andere raden van bestuur en de system agent. Vier van deze zijn verpakt in een 3U rack behuizing en een enkele knoop er kunnen maximaal vier van deze Golf Berekenen Apparaten met meer dan één miljoen verwerking van de elementen, 8 tb DRAM en 128GB van HMC geheugen leveren van piekvermogen van 11,6 petaops. Een host Linux-server beheert sessies over meerdere knooppunten.

Het is een indrukwekkend design, maar Meyer liet doorschemeren dat de commerciële versie zal er heel anders uitzien. Het is misschien niet een rackmount server. Een mogelijkheid is dat Wave zal kiezen voor een werkstation langs de lijnen van de Nvidia DGX1 Station, die vier Tesla V100-Gpu ‘ s. Golf kan ook zijn DPUs beschikbaar als een dienst via de cloud, alleen of met een partner.

Ongeacht hoe het eruit ziet aan de buitenkant, Wave is het eerste product zal een test zijn van een heel andere architectuur aan de binnenkant. Zoals de naam al impliceert, de dataflow architectuur richt zich op het verplaatsen van gegevens door middel van een processor array snel, eerder dan voor het uitvoeren van een reeks van instructies in de juiste volgorde. De Golf DPU niet vereist dat een host-CPU en het heeft geen besturingssysteem of de toepassingen. In tegenstelling tot een CPU, kan het uitvoeren van de instructies van de order en het combineren van instructies, de DPU heeft geen globale klok en statisch is gepland. Omdat er geen gedeelde cache, is er geen zorgen hoeft te maken over het behoud van samenhang.

Voor het uitvoeren van een neuraal netwerk, de Golf compiler opgesplitst in een reeks van stappen en wijst hen toe aan de groepen van de verwerking van elementen waar ze zijn opgeslagen in het lokale instructie geheugen. Wanneer gegevens worden geladen van DRAM of het HMC stapels in de DPU, de asynchrone logica voert onmiddellijk een operatie, en dan geeft het resultaat aan naburige verwerking van de elementen. Het proces gaat door totdat er geen gegevens meer links, op welk punt de cluster gaat slapen.

Deze uiterst eenvoudige ontwerp heeft een aantal voordelen voor de diepe leren. Het maakt de verwerking van de elementen om te worden uitgevoerd bij een veel hogere snelheid. De zelf-geprogrammeerde logica is in theorie in staat om het bereiken 10GHz, hoewel Wave zegt in de praktijk zal werken op ongeveer 6,7 GHz. Het vermindert ook het sterven gebied en Golf te pakken duizenden van de verwerking van elementen op een enkele chip zonder dat verblijf in de bleeding edge technologie.

Dit alles hangt echter af van het hebben van een goede compiler dat de bestaande modellen en taken toewijzen aan duizenden van de verwerking van elementen op een manier die maximaliseert de dataflow architectuur. Voor nu, de DPU-en software, werkt met Google ‘s TensorFlow kader, hoewel Golf heeft ook gesproken over het toevoegen van ondersteuning voor Microsoft Cognitieve Toolkit en MXNet, Amazon’ s tool voor AWS.

Terwijl Golf zullen strijden voor de huidige gebruikers die al werkzaam zijn in deze kaders, het ware doel lijkt te bereiken organisaties die nog niet met behulp van kunstmatige intelligentie. “Er is een veel grotere markt van bedrijven die geen gebruik maken van diep leren en dat is een geweldige kans voor ons”, Meyer zei. “Voor bedrijven die nog geen gebruik maakt van AI, dit gaat te openen geheel nieuwe use cases.” Golf voorgesteld het ontwerp, de prijs en het gemak van het gebruik van het systeem zal allemaal helpen om nieuwe gebruikers aan te trekken naar AI, maar we moeten natuurlijk wachten voor details over het commerciële product.

Uiteindelijk zal het nodig hebben om competitieve prestaties. Wanneer Golf voor het eerst aangekondigd de DPU, op de Linley Processor Conferentie in 2016, het sprak over een 10x speed-up over moderne Gpu ‘ s. Meer recent, Golf heeft beloofd tot 1000 keer sneller dan huidige Cpu ‘s, Gpu’ s en fpga ‘ s (een relatief breed scala van mogelijkheden). Het heeft ook bleek een aantal test-resultaten met behulp van een enkel knooppunt (64 DPUs) op verschillende CNNs voor het imago van erkenning, alsmede een Recurrent Neuraal Netwerk (RNN) voor machine vertaling, die aangeven dat het in staat is om de training complexe neurale netwerken in uren. Meyer zei dat Golf is op weg om hij beloofde prestaties en een “en misschien zelfs daarbuiten” met het commerciële systeem.

Verwante Onderwerpen:

Processors

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software