DANSK

GPU computing: Fremskynde den dybe læring kurven

109

Nul

Kunstig intelligens (AI) kan være hvad alle taler om, men at få involveret, er ikke ligetil. Du får brug for en mere end værdig forståelse af matematik og teoretisk data videnskab, plus en forståelse af neurale netværk og dybe læring grundlæggende, — for ikke at nævne et godt kendskab til de værktøjer, der kræves for at vende disse teorier til praktiske modeller og programmer.

Du får også brug for en overflod af processorkraft — ud over det, der kræves af selv de mest krævende standard applikationer. En måde at få dette på er via skyen, men, fordi dyb læring modeller kan tage dage eller endda uger til at komme op med varer, der kan blive enormt dyrt. I denne artikel, og derfor vil vi se på on-premises alternativer, og hvorfor det engang ydmyge grafik-controller er nu must-have tilbehør til ville-være AI-udvikler.

Indtast GPU

Hvis du læser dette er det sikkert at antage, at du ved, hvad en CPU (Central Processing Unit) er, og hvor stærk den nyeste Intel-og AMD-chips. Men hvis du er en AI-udvikler, Cpu ‘ er, der alene er ikke nok. De kan gøre behandlingen, men den store mængde af ustruktureret data, der skal analyseres for at bygge og træne dyb læring modeller kan forlade dem maxed ud i ugevis. Selv multi-core Cpu ‘er kæmper med dybe læring, som er der, hvor GPU’ en (Graphics Processing Unit) kommer ind i billedet.

Igen, du er sikkert godt klar over Gpu ‘ er. Men lige for at opsummere, vi taler om specialiserede processorer oprindeligt udviklet til at håndtere komplekse billede behandling-for eksempel, at give os mulighed for at se film i high definition eller deltage i 3D multiplayer spil eller nyde virtual reality-simuleringer. Gpu ‘er er særligt dygtige til behandling af matricer — noget Cpu’ er har svært ved at klare med — og det er dette, der også passer til dem, til specialiserede applikationer som dyb læring. Også, en masse mere specialiserede GPU kerner kan være stuvet sammen i processoren dø end med en CPU. For eksempel, mens der med en Intel Xeon du kan i øjeblikket forvente at få op til 28 kerner pr stik, en GPU kan have tusindvis — alle i stand til at behandle AI data samtidigt.

Fordi alle disse kerner er meget specialiserede, at de ikke kan køre et operativsystem eller håndtere centrale ansøgning logik, så du stadig har brug for en eller flere Cpu ‘ er så godt. Hvad disse systemer kan gøre, men er massivt fremskynde processer, såsom dyb læring, uddannelse, ved at skubbe den behandling, der er involveret fra Cpu ‘ er til alle dem, der er kerner i GPU-undersystemet.

GPU ‘ en i praksis

Så meget for teorien, når det kommer til den praksis, der er i antallet af GPU-leverandører med produkter, der tager sigte på alt fra gaming til specialist HPC (High Performance Computing) marked og AI. Dette marked blev udviklet af Nvidia med sin Pascal GPU-arkitektur, som længe har været rollemodel for andre til at sigte på.

I form af egentlige produkter, du kan få i AI for meget lidt besvær med en billig gaming GPU. Et Nvidia GeForce GTX 1060, for eksempel, kan være havde for blot £270 (inc. MOMS), og leverer 1,280 CUDA kerner — Nvidia GPU core-teknologi. Det lyder som en big deal, men i virkeligheden er det langtfra nok til at tilfredsstille de behov, en alvorlig AI-udviklere.

For professionelle AI brug, derfor, Nvidia har meget mere stærk og skalerbar Gpu ‘er baseret både på sin Pascal-teknologi og en nyere arkitektur, Volta, som integrerer CUDA kerner med Nvidia’ s nye Tensor core-teknologi, der er specielt at tage højde for dyb læring. Tensor kerner, der kan levere op til 12 gange peak teraflops (TFLOPS) udførelse af CUDA-ækvivalenter for dyb læring, uddannelse og 6 gange den kapacitet til at antage, — når dybe læring modeller er faktisk bruges.

Det første produkt til at være baseret på Volta er Tesla V100, som har 640 af nye AI-specifikke Tensor kerner i tillæg til 5,120 generelt HPC CUDA kerner til alle, der understøttes af enten 16GB eller 32GB anden generation Høj Båndbredde Hukommelse (HBM2).

V100 er tilgængelig som enten en standard plug-in PCIe-adapter (disse starter på omkring £7,500) eller som en mindre SXM modul, der er beregnet til at passe ind i en særlig bundkort socket, der, såvel som PCIe-forbindelse, giver V100s at være forbundet med hinanden ved hjælp af Nvidia ‘ s egne high-speed NVLink bus-teknologi. Oprindeligt udviklet til at støtte den første generation (Pascal-baseret) Tesla GPU produkter, NVLink er siden blevet udvidet til at understøtte op til seks links per GPU med en samlet båndbredde på 300 gb/sek. NVLink er også tilgængelige til brug med en ny Quadra-adapteren, og andre er baseret på Volta-arkitektur, også, sådan er udviklingen på dette marked, at der nu er et koblet samtrafik — NVSwitch — aktivering af op til 16 Gpu ‘ er til at være sammen med en båndbredde på 2,4 TB/sek.

Off-the-shelf AI

Selvfølgelig, Gpu ‘ er, som selv er ikke til megen nytte, og når det kommer til alvorlig AI og andre HPC-programmer der er en række måder at sætte dem til at arbejde. Den ene er at købe de enkelte Gpu ‘ er plus alle de andre komponenter, der er nødvendige for at opbygge et komplet system og samle det selv. Men kun få virksomheder købere vil være glade for at gå ned-det-selv rute, med de fleste foretrækker at få en ready-made — og, hvad vigtigere er, leverandør-understøttede-løsning fra enten Nvidia eller en af vores partnere.

Disse færdige løsninger, selvfølgelig, alle bruger den samme GPU-teknologi, men er indsat på forskellige måder. Så for at få en idé om, hvad der er på tilbud tog vi et kig på, hvad Nvidia er sælger og en Supermicro-baseret alternativ fra Boston Begrænset.

Tag dine AI pick: Nvidia (nederst) og Boston (top) dyb læring servere sammen i samme rack.

Billede: Alan Stevens/ZDNet

Nvidia AI familie

Nvidia er ivrige efter at blive kendt som ‘AI Computing Selskab”, og under sin DGX brand sælger et par servere (DGX-1 og nyere mere kraftfuld DGX-2) plus en AI arbejdsstation (DGX-Station), der alle er bygget op omkring Tesla V100-Gpu ‘ er.

Den slanke Nvidia DGX familie af klar-til-brug AI platforme er alle drevet af Tesla VX100 Gpu ‘ er.

Billede: Nvidia

Leveres i særprægede guld knitre-finish tilfælde, DGX-servere og arbejdsstationer, der er klar til at gå løsninger, der består af både en standard hardware konfiguration og en integreret DGX Software Stack-en præinstalleret Ubuntu Linux OS plus en blanding af førende rammer og udvikling af værktøjer, der kræves for at opbygge AI modeller.

Vi kiggede først på DGX-1 (vejledende pris $149,000), som kommer i en 3U rack-mount-chassis. Desværre er den ene i lab i Boston var travlt med at bygge rigtige modeller, så er der, bortset fra en uden for skud, vi kunne ikke tage nogen fotos af vores egne. Fra andre vi har set, men vi ved, at DGX-1 er en temmelig standard rack-mount-server med fire redundante strømforsyninger. Det er standard på indersiden også, med en almindelig dual-socket-server bundkort, der er udstyret med et par 20-core Intel Xeon E5-2698 v4-processorer plus 512GB af DDR4 RAM.

En 480GB SSD bruges til at rumme operativsystem og DGX Software Stack, med en storage-array, bestående af fire 1.92 TB Ssd ‘ er til data. Ekstra lagerplads kan tilføjes, hvis det er nødvendigt, samtidig med at netværksforbindelsen er håndteret af fire Mellanox InfiniBand EDR, adaptere samt et par af 10 gbe Nic ‘ er. Der er også en dedikeret Gigabit Ethernet-interface for IPMI remote management.

Vi kunne ikke åbne op DGX-1, som det blev optaget uddannelse, men her er det hårdt arbejde i Boston Limited ‘ s Laboratorier.

Billede: Alan Stevens/ZDNet

Alle vigtige Gpu ‘ er har deres eget hus, på en NVLink bestyrelsen med otte stikkontakter fuldt befolket med Tesla V100 SXM2 moduler. Den første udgave havde dog kun 16 gb dedikeret HBM, men DGX-1 kan nu angives med 32 gb moduler.

Uanset hukommelse konfiguration, med otte forskellige Gpu ‘ er til sin rådighed DGX-1 kan prale med en massiv 40,960 CUDA kerner for konventionelle HPC arbejde plus 5,120 af AI-specifikke Tensor kerner. Ifølge Nvidia, der svarer til 960 teraflops af AI computerkraft, som det hævder, gør DGX-1 svarende til 25 stativer af konventionelle servere er udstyret med Cpu ‘ er alene.

Det er også værd at bemærke, at den fører dybt læring rammer alle understøtter Nvidia GPU technologies. Desuden, når du bruger Tesla V100-Gpu ‘ er, disse er op til 3 gange hurtigere end at bruge Pascal-baseret P100 produkter med CUDA kerner alene.

Købere af DGX-1 kan også drage fordel af 24/7 support, opdatering og vedligeholdelse af hjemmesiden direkte fra Nvidia, selvom dette er en lidt pebret på $23,300 for et år eller $66,500 for tre år. Stadig, i betragtning af de komplekse krav til AI, mange vil se dette som en god værdi og i det forenede KONGERIGE kunder skal forvente at betale omkring £123,000 (ex. MOMS) for at få et fuldt udstyret DGX-1 med et års support.

AI bliver personligt

Desværre nyere DGX-2 med 16 Gpu ‘ er og den nye NVSwitch ikke skib i tid for vores undersøgelse, men vi fik at se på DGX-Station, som er designet til at give en mere overkommelig platform for at udvikle, teste og iteration dybt neurale netværk. Dette HPC-arbejdsstationen vil også appellere til virksomheder, der ønsker en platform for AI udvikling inden opskalering til on-premises DGX-servere eller sky.

Til huse i en stående på gulvet tower kabinet, DGX-Stationen er baseret på et Asus bundkort med en enkelt 20-core Xeon E5-2698 v4-i stedet for to, som på DGX-1 server. System hukommelse er også halveret, til 256GB, og i stedet for otte Gpu ‘ er, DGX-Stationen har fire Tesla V100-moduler, der gennemføres som PCIe-adaptere, men med en fuld NVLink interconnect, der knytter dem sammen.

Opbevaring er delt mellem en 1.92 GB system SSD og en vifte af tre lignende drev til data. Dobbelt 10 gbe-porte giver den nødvendige netværksforbindelse, og der er tre DisplayPort-grænseflader til lokale skærme på op til 4K-opløsning. Vandkøling kommer som standard, og slutresultatet er en meget rolig samt enormt imponerende-leder arbejdsstation.

Det gjorde vi komme til at se inde i smart-leder DGX-Station, hvor der er bare en Xeon processor, 256 GB RAM, fire Tesla V100-Gpu ‘ er og en masse rør for vand til køling.

Billede: Alan Stevens/ZDNet

Med halvdelen af de supplement af Gpu ‘ er, DGX-Stationen leverer en påstået 480 teraflops af AI computerkraft. Ikke overraskende, der er halvdelen af, hvad du får med DGX-1 server, men stadig en masse mere end at bruge Cpu ‘ er alene, Det er også en meget mere overkommelig, med en liste pris af $69,000 plus $10,800 for et års 24/7 support eller $30,800 for tre år.

BRITISKE købere bliver nødt til at finde rundt £59,000 (ex. MOMS) for hardware fra et Nvidia partner med en et-årig støtte kontrakt, selv om vi har set en række af kampagner-herunder en ” køb fire få et gratis tilbud! — der er værd at kigge efter. Pædagogisk rabatter er også tilgængelige.

Boston Anna Volta XL

Det tredje produkt, vi kiggede på, var for nylig lanceret Anna Volta XL fra Boston. Dette er faktisk den tilsvarende Nvidia DGX-1 og er ligeledes drevet af dual Xeons plus otte Tesla V100 SXM2 moduler. Disse er alle konfigureret inde i en Supermicro rack-mount-server med en masse flere muligheder for tilpasning i forhold til DGX-1.

Anna Volta XL fra Boston er udstyret med dual Xeon-processorer og otte Tesla V100-Gpu ‘ er i en brugerdefinerbar Supermicro server platform.

Billede: Supermicro

En lille smule større end Nvidia server, Anna Volta XL er en 4U platform med redundant (2+2) strømforsyninger og separat pull-out bakker for den konventionelle CPU server og dens GPU-undersystemet. Enhver Xeon med en TDP på 205W eller mindre kan specificeres-herunder den nyeste Skylake processorer, som Nvidia har endnu ikke tilbyder på sin DGX-1-produkt.

CPU ‘ en bakke på Anna Volta kan rumme to Xeons og op til 3 tb DDR4 RAM.

Billede: Alan Stevens/ZDNet

Der er 24 DIMM-pladser til rådighed ved siden af Xeons til at tage op til 3 tb DDR4-system hukommelse, og for opbevaring, seksten 2,5-tommers drev bugter i stand til at rumme enten 16 SATA/SAS eller 8 NVMe drev. Netværk vedhæftet fil via dobbelt 10 gbe netværksporte med en dedikeret port til IPMI remote management. Du får også seks PCIe-slots (fire i GPU ‘ en skuffe og to i CPU-bakke), så der er mulighed for at tilføje InfiniBand eller Omni-Sti-forbindelse, hvis det kræves.

GPU ‘ en skuffe er temmelig spartansk, fyldt af en Supermicro NVLink bundkort med stikkontakter for Tesla V100 SXM2 moduler, hver med en stor heatsink på toppen. GPU performance er naturligvis den samme som for DGX-1 selv om det samlede system gennemløb, vil afhænge af den Xeon CPU/RAM konfiguration.

Alle vigtige Tesla V100-moduler, som er monteret på en NVLink kort i toppen af Boston Anna Volta-server (en af de kølere er blevet fjernet for foto).

Billede: Alan Stevens/ZDNet

Anna Volta er prissat meget lavere end Nvidia server: Boston citater $119,000 for en tilsvarende specifikation til DGX-1 ( en besparelse på $30,000 på liste prisen). For BRITISKE købere, der svarer til omkring £91,000 (ex. MOMS). AI software stack er ikke inkluderet i Boston pris, men det meste af, hvad der kræves, er open source, Boston tilbyder også en række konkurrencemæssige vedligeholdelse og support.

Og det er om det i dette hurtigt voksende marked. I form af GPU-hardware, der er virkelig ingen forskel mellem de produkter, vi kiggede på, så det hele ned til præferencer og budget. Og med andre leverandører forbereder sig på at deltage i kampen, priserne er allerede begyndt at falde, da efterspørgslen efter disse specialiserede AI platforme vokser.

DE SENESTE OG RELATERET INDHOLD

Nvidia afslører særlige 32GB Titan V ‘DIREKTØR Edition’ GPU, og så giver væk en flok
Nvidia gør en særlig 32GB udgave af den mest kraftfulde PC-grafikkort, Titan V.

Google Cloud udvider GPU ‘ en portefølje med Nvidia Tesla V100
Nvidia Tesla V100-Gpu ‘ er er nu offentligt tilgængelig i beta på Google Compute Engine, og Kubernetes Motor.

Nvidia udvider nye GPU cloud til HPC-programmer
Med mere end 500 high-performance computing-applikationer, der indeholder GPU-acceleration, Nvidia sigter mod at gøre dem lettere at få adgang.

NVIDIA HGX-2 GPU blander AI og HPC til next-gen business computing (TechRepublic)
NVIDIA ‘ s nye GPU beregne apparatet er udråbt som værende i stand til at erstatte 300 dual CPU server noder.

NVIDIA bringer sin hurtigste GPU accelerator til IBM Cloud til at øge AI, HPC arbejdsmængder (TechRepublic)
Den kombination kan hjælpe virksomheder og data forskere skabe cloud-native apps, der skaber ny værdi for virksomheden.

Relaterede Emner:

Hardware

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software