NORSK

GPU computing: het Versnellen van de diepe leercurve

131

Nul

Kunstmatige intelligentie (AI) kan worden wat iedereen praat erover, maar het krijgen van die betrokken is niet eenvoudig. Je hebt een meer dan fatsoenlijke begrijpen van de wiskunde en de theoretische gegevens wetenschap, plus een goed begrip van de neurale netwerken en diep leren de grondbeginselen — en niet te vergeten een goede kennis van de instrumenten die nodig zijn om die theorieën naar praktische modellen en toepassingen.

U moet ook een overvloed van processing power — buiten dat zelfs de meest veeleisende van standaard applicaties. Een manier om dit te krijgen is via de cloud, maar omdat het diep leren modellen kan dagen of zelfs weken te komen met de goederen, die kan worden zeer duur. In dit artikel daarom kijken we naar een lokale alternatieven en waarom de eens zo bescheiden grafische controller is nu de must-have accessoire voor de AI-ontwikkelaar.

Voer de GPU

Als je dit leest het is veilig om te veronderstellen dat je weet wat een CPU (Central Processing Unit) is en hoe krachtig de nieuwste Intel en AMD chips. Maar als je een AI-ontwikkelaar, Cpu ‘ s alleen zijn niet genoeg. Ze kunnen de verwerking, maar de enorme hoeveelheid ongestructureerde data die moeten worden geanalyseerd om te bouwen en te trainen diep leren modellen kan laten maxed out voor een aantal weken. Zelfs multi-core Cpu ‘ s worstelen met diep leren, dat is waar de GPU (Graphics Processing Unit) in komt.

Nogmaals, u bent waarschijnlijk goed op de hoogte van de Gpu ‘ s. Maar gewoon om samen te vatten, we hebben het over gespecialiseerde verwerkers oorspronkelijk ontwikkeld voor het afhandelen van complexe beeldbewerking, bijvoorbeeld, stellen ons in staat om films in high definition of deel te nemen in 3D multiplayer spellen of geniet van de virtual reality-simulaties. Gpu ‘s zijn bijzonder bedreven in het verwerken van matrices — iets Cpu’ s hebben moeite met het omgaan met-en het is deze, dat ook bij hen past voor gespecialiseerde toepassingen, zoals diep leren. Ook, veel meer gespecialiseerde GPU kernen kan worden gepropt in de processor om te sterven dan met een CPU. Bijvoorbeeld, terwijl met een Intel Xeon je kan tegenwoordig verwacht te krijgen tot 28 cores per socket, een GPU kan duizenden — allemaal kunnen verwerken AI gegevens tegelijkertijd.

Omdat deze kernen in hoge mate gespecialiseerd zijn, kunnen ze niet uitvoeren van een besturingssysteem of het afhandelen van core applicatie logica, dus je moet nog één of meer Cpu ‘ s. Wat deze systemen echter wel kan doen, is massaal versnelling van processen, zoals deep learning-training, door het ontlasten van de verwerking van Cpu ‘ s aan al die kernen in de GPU-subsysteem.

De GPU in de praktijk

Tot zover de theorie, als het gaat om de praktijk zijn er een aantal GPU leveranciers met producten gericht op alles, van gaming tot de specialist HPC (High Performance Computing) markt en AI. Deze markt is ontwikkeld door Nvidia met haar Pascal GPU-architectuur, die lange tijd is het rolmodel voor anderen te richten.

In termen van de feitelijke producten, kan je in de AI voor zeer weinig kosten met behulp van een low-cost gaming GPU. Een Nvidia GeForce GTX 1060, bijvoorbeeld, had kunnen worden voor slechts € 270 (inc. BTW), en levert 1,280 CUDA-cores — de Nvidia GPU core-technologie. Dat klinkt als een big deal, maar in werkelijkheid is het nergens in de buurt genoeg om te voldoen aan de behoeften van serieuze AI-ontwikkelaars.

Voor professionele AI gebruiken, daarom Nvidia heeft veel meer krachtige en schaalbare Gpu ‘s gebaseerd op zowel haar Pascal technologie en een nieuwere architectuur, Volta, die integreert CUDA-cores met Nvidia’ s nieuwe Tensor core-technologie die specifiek om tegemoet te komen aan diep leren. Tensor kernen kan leveren tot 12 keer de piek teraflops (TFLOPS) prestaties van de CUDA-equivalenten voor deep learning training en 6 keer de doorvoer voor de inferentie — wanneer diep leren modellen daadwerkelijk gebruikt worden.

Het eerste product gebaseerd op Volta is de Tesla V100, die voorzien is van 640 van het nieuwe AI-specifieke Tensor kernen naast 5,120 algemene HPC CUDA-cores, alle ondersteund door 16GB of 32GB van de tweede generatie met een Hoge Bandbreedte van het Geheugen (HBM2).

De V100 is verkrijgbaar als een standaard plug-in PCIe adapter (deze beginnen bij ongeveer £7.500) of als een kleinere SXM module, ontworpen om te passen in een speciaal moederbord socket die, als PCIe-connectiviteit maakt het mogelijk V100s worden met elkaar verbonden met behulp van Nvidia ‘ s eigen high-speed NVLink bus-technologie. Oorspronkelijk ontwikkeld voor de ondersteuning van de eerste generatie (Pascal) Tesla GPU producten, NVLink is sindsdien uitgebreid met ondersteuning voor maximaal zes links per GPU met een gecombineerde bandbreedte van 300 GB/sec. NVLink is ook beschikbaar voor gebruik met een nieuwe Quadra-adapter en anderen op basis van de Volta architectuur; ook is het tempo van de veranderingen in deze markt, is er nu een geschakeld interconnect — NVSwitch — aanzetten tot 16 Gpu ‘ s worden gekoppeld met een bandbreedte van 2,4 TB/sec.

Off-the-shelf AI

Natuurlijk, Gpu ‘ s zelf niet van veel te gebruiken, en als het gaat om ernstige AI en andere HPC-toepassingen zijn er een aantal manieren om ze aan het werk. Het ene is om te kopen de afzonderlijke Gpu ‘ s plus alle andere componenten die nodig zijn voor het bouwen van een compleet systeem en monteren zelf. Echter, enkele zakelijke kopers zullen u graag te gaan met de doe-route, met de meeste voorkeur om een kant-en-klare — en, belangrijker nog, door de leverancier ondersteund — oplossing van Nvidia of een van haar partners.

Deze kant-en-klare oplossingen, natuurlijk, allemaal gebruik van dezelfde GPU technologie, maar ingezet op verschillende manieren. Dus, om een idee te krijgen van wat het aanbod namen we een kijkje naar wat Nvidia is de verkoop en een Supermicro-gebaseerd alternatief van Boston Beperkt.

Neem uw AI halen: Nvidia (onder) en Boston (top) diep leren servers samen in hetzelfde rack.

Afbeelding: Alan Stevens/ZDNet

De Nvidia AI familie

Nvidia wil bekend worden als de ‘AI Computing-Onderneming’ en onder haar DGX merk verkoopt een paar servers (de DGX-1 en de nieuwere, meer krachtige DGX-2) plus een AI-werkstation (de DGX-Station), gebouwd rond Tesla V100-Gpu ‘ s.

De slanke Nvidia DGX familie van de ready-to-use AI platforms zijn allemaal aangedreven door Tesla VX100 Gpu ‘ s.

Afbeelding: Nvidia

Geleverd in opvallende gouden crackle finish gevallen, DGX-servers en werkstations zijn ready-to-go oplossingen met zowel een standaard hardware configuratie en een geïntegreerde DGX Software Stack — een vooraf geladen Ubuntu Linux OS plus een mix van toonaangevende kaders en de ontwikkeling van hulpmiddelen die worden vereist om te bouwen van AI modellen.

We keken eerst naar de DGX-1 (aanbevolen prijs van $149,000) die wordt geleverd in een 3U rack-mount chassis. Helaas is er één in het lab van Boston was druk met het opbouwen van echte modellen dus, afgezien van een buiten schot, we konden geen foto ‘ s van onze eigen. Van anderen hebben we gezien, echter, we weten dat de DGX-1 is een vrij standaard rack-mount server met vier redundante voedingen. Het is standaard op de binnenkant, met een conventionele dual-socket server moederbord uitgerust met een paar van de 20-core Intel Xeon E5-2698 v4-processors plus 512 gb DDR4 RAM.

Een 480GB SSD wordt gebruikt voor het besturingssysteem en de DGX Software Stack, met een storage array bestaande uit vier 1.92 TB Ssd ‘ s voor de gegevens. Extra opslag kan worden toegevoegd als dat nodig is, terwijl het netwerk van de connectiviteit wordt verzorgd door vier Mellanox InfiniBand EDR adapters plus een paar van een 10 gbe Nic ‘ s. Er is ook een speciale Gigabit Ethernet-interface voor IPMI-beheer op afstand.

We konden het niet openstellen van de DGX-1, zoals was bezig met het trainen, maar hier is hard aan het werk in Boston Limited Labs.

Afbeelding: Alan Stevens/ZDNet

De belangrijke Gpu ‘ s hebben een eigen huis, op een NVLink raad van bestuur met acht stopcontacten volledig gevuld met Tesla V100 SXM2 modules. De eerste versie had alleen de 16 gb dedicated HBM, maar de DGX-1 kan nu worden gespecificeerd met 32 GB modules.

Ongeacht de configuratie van het geheugen, met acht Gpu ‘ s over de DGX-1 bogen op een enorme 40,960 CUDA-cores voor conventionele HPC werk plus 5,120 van de AI-specifieke Tensor kernen. Volgens Nvidia gelijk aan 960 teraflops van AI rekenkracht die het beweert, maakt de DGX-1 het equivalent van 25 stellingen van conventionele servers uitgerust met de Cpu ‘ s alleen.

Het is ook vermeldenswaard dat de toonaangevende diep leren kaders alle ondersteuning voor Nvidia GPU technologieën. Bovendien, bij het gebruik van Tesla V100 deze Gpu ‘ s zijn tot 3 keer sneller dan het gebruik van Pascal op basis P100 producten met CUDA-cores alleen.

Kopers van de DGX-1 kan ook gebruikmaken van een 24/7 support, update en onderhoud on-site rechtstreeks van Nvidia, hoewel dit een beetje prijzig op $23,300 voor een jaar of $66,500 voor drie jaar. Nog steeds, gezien de complexe eisen van de AI, zullen velen zien dit als een goede waarde en in het verenigd koninkrijk mag de klant verwachten te betalen ongeveer € 123,000 (ex. BTW) voor een volledig uitgeruste DGX-1 met een jaar te steunen.

AI krijgt persoonlijke

Helaas is de nieuwere DGX-2 met 16 Gpu ‘ s en de nieuwe NVSwitch niet het schip in tijd voor onze review, maar we hadden wel om te kijken naar de DGX-Station, die is ontworpen om te zorgen voor een meer betaalbare platform voor het ontwikkelen, testen en itereren diep neurale netwerken. Dit HPC werkstation zal ook een beroep op bedrijven op zoek naar een platform voor AI ontwikkeling voorafgaand aan de opschaling van een intern DGX-servers of in de cloud.

Gevestigd in een staand op de tower chassis, de DGX-Station is gebaseerd op een Asus moederbord met een single 20-core Xeon E5-2698 v4 in plaats van twee zoals op de DGX-1 server. Systeem geheugen is ook gehalveerd, tot 256GB, en in plaats van acht Gpu ‘ s, de DGX-Station heeft vier Tesla V100 modules uitgevoerd als Pci-adapters, maar met een volledige NVLink interconnectie het koppelen van hen samen.

Opslag is verdeeld tussen een 1.92 GB systeem SSD en een array van drie soortgelijke schijven voor data. Dubbele 10GbE-poorten bieden de noodzakelijke netwerk-connectiviteit en er zijn drie DisplayPort interface voor lokale geeft tot een resolutie van 4K. Water koeling is de standaard en het eind resultaat is een erg rustig en enorm indrukwekkend uitziende werkplek.

We hebben nog te zien in de smart-op zoek DGX-Station wanneer er een Xeon-processor, 256GB RAM, vier Tesla V100-Gpu ‘ s en veel van de leidingen voor het water te koelen.

Afbeelding: Alan Stevens/ZDNet

Met de helft van de aanvulling van de Gpu ‘ s, de DGX-Station levert een beweerde 480 teraflops van AI rekenkracht. Niet verwonderlijk dat de helft van wat je met de DGX-1 server, maar er is nog veel meer dan het gebruik van Cpu ‘ s staan Er ook veel meer betaalbaar, met een adviesprijs van € 69,000 plus $10,800 voor een jaar 24/7 ondersteuning of $30,800 voor drie jaar.

VERZENDING kopers te vinden voor ongeveer € 59,000 (ex. BTW) voor de hardware van een Nvidia partner met een jaar support-contract, hoewel we hebben gezien een aantal promoties, met inbegrip van een ‘buy vier krijgen een gratis’ aan te bieden! — wat zijn de moeite waard op zoek naar. Educatieve kortingen zijn ook beschikbaar.

Boston Anna Volta XL

Het derde product hebben we gekeken naar de recent gelanceerde Anna Volta XL van Boston. Dit is in feite het equivalent van de Nvidia DGX-1 en wordt ook aangedreven door dual Xeons plus acht Tesla V100 SXM2 modules. Dit zijn allemaal geconfigureerd in een Supermicro rack-mount server met veel meer customization-opties in vergelijking met de DGX-1.

De Anna Volta XL van Boston beschikt over dual Xeon-processors en acht Tesla V100 Gpu ‘ s in een aanpasbare Supermicro server platform.

Afbeelding: Supermicro

Een beetje groter dan de Nvidia server, de Anna Volta XL is een 4U-platform met redundante (2+2) voedingen en een aparte lades voor de conventionele CPU server en GPU zijn subsysteem. Een Xeon met een TDP van 205 W of minder kunnen worden gespecificeerd, inclusief de nieuwste Skylake processors, die Nvidia heeft nog niet op de DGX-1 product.

De CPU-lade op de Anna Volta is geschikt voor twee Xeons en tot 3 tb van DDR4 RAM.

Afbeelding: Alan Stevens/ZDNet

Er zijn 24 DIMM-sleuven beschikbaar, naast de Xeons te nemen van maximaal 3TB van DDR4-systeem geheugen en opslag, zestien 2,5-inch drive bays geschikt voor 16 SATA/SAS-of 8 NVMe schijven. Netwerk bijlage is via dubbele 10GbE-poorten met een speciale poort voor IPMI-beheer op afstand. Ook krijg je zes PCIe-slots (vier in de GPU lade en twee in de CPU-lade) zo is er de optie van het toevoegen van InfiniBand-of Omni-Pad-connectiviteit als dat nodig is.

De GPU lade is vrij spartaans, gevuld door een Supermicro NVLink moederbord met aansluitingen voor de Tesla V100 SXM2 modules, elk met een grote heatsink op de top. De GPU-prestaties is uiteraard hetzelfde als voor de DGX-1 hoewel de totale doorvoer systeem zal afhangen van de Xeon CPU/RAM-configuratie.

De belangrijke Tesla V100 modules zijn gemonteerd op een NVLink kaart in de top van de Boston Anna Volta server (één van de koellichamen zijn verwijderd voor de foto).

Afbeelding: Alan Stevens/ZDNet

De Anna Volta is prijs een stuk lager dan de Nvidia-server: Boston quotes $119,000 voor een vergelijkbare specificatie tot en met de DGX-1 ( een besparing van $30.000 op de catalogusprijs). Voor VERZENDING kopers dat vertaalt zich naar ongeveer € 91,000 (ex. BTW). De AI-software stack is niet inbegrepen in de Boston prijs, maar het overgrote deel van wat nodig is, is open source; Boston biedt ook een aantal concurrerende onderhoud en support services.

En dat is in deze snel opkomende markt. In termen van de GPU hardware er is echt geen verschil tussen de producten die we bekeken, dus het komt allemaal neer op voorkeur en budget. En met andere leveranciers klaar om deel te nemen aan de strijd, de prijzen zijn nu al beginnen te dalen en de vraag naar deze specialist AI platformen groeit.

RECENTE EN GERELATEERDE INHOUD

Nvidia onthult speciale 32GB Titan V ‘CEO Edition’ GPU, en dan geeft een afstand van een bos
Nvidia maakt een speciale 32GB-editie van de meest krachtige PC grafische kaart, de Titan V.

Google Cloud breidt GPU portfolio met Nvidia Tesla V100
Nvidia Tesla V100 Gpu ‘ s zijn nu publiekelijk beschikbaar in de beta op Google Compute Engine en Kubernetes Motor.

Nvidia breidt de nieuwe GPU-cloud-en HPC-toepassingen
Met meer dan 500 high-performance computing-applicaties die gebruikmaken van GPU-versnelling, Nvidia is gericht om het makkelijker te maken om toegang te krijgen.

NVIDIA HGX-2 GPU combineert AI en HPC voor next-gen business computing (TechRepublic)
NVIDIA ‘ s nieuwe GPU berekenen apparaat wordt aangeprezen als zijnde in staat om te vervangen 300 dual CPU server nodes.

NVIDIA brengt de snelste GPU gaspedaal naar de IBM Cloud te stimuleren AI, HPC-workloads (TechRepublic)
De combinatie kan helpen ondernemingen en gegevens wetenschappers maken van cloud-native apps die het genereren van new business value.

Verwante Onderwerpen:

Hardware

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software