Nvidia DGX-2 recension: Mer AI bang, en hel del mer pengar

0
132

Noll

nvidia-dgx2-header.jpg

Bild: Nvidia

För $400,000, kan du komma runt 400 X iPhone telefoner, 300 Surface Pro bärbara datorer, eller 11 Tesla-Serien 3 elbilar. Men det skulle ta hela $400K och mer för att få dina händer på bara ett Nvidia DGX-2-server, som är faktureras som “världens mest kraftfulla AI-system för de mest komplexa AI utmaningar”.

Men gör DGX-2 leva upp till detta påstående — och är en server verkligen värt ett eye-vattning prislapp?

DGX fortsatt

För att besvara dessa frågor måste du först förstå att DGX-2 är inte den första off-the-peg Nvidia-server för att vara riktade på AI. Den äran går till DGX-1, som bygger på en blandning av Intel Xeon-processorer ihop med Nvidia: s egna AI-optimerad Tesla V100 Volta-arkitektur Grafikprocessorer. Den DGX-2 fortsätter i samma tillvägagångssätt, men i stället för åtta Tesla V100s gick med hjälp av Nvidia: s NVLink buss, DGX-2 levereras med 16 av dessa mäktiga Klienter som är anslutna med hjälp av sin mer skalbar NVswitch teknik. Enligt Nvidia, denna inställning ger DGX-2 hantera djupt lärande och andra krävande AI och HPC arbetsbelastning upp till 10 gånger snabbare än sina mindre syskon.

Även om det tillkännagavs på samma gång som DGX-1, det har tagit ett ytterligare sex månader för den större modellen visas. En av de första att göra det till STORBRITANNIEN installerades i laboratorier av Nvidia partner Boston Begränsad. De frågade om vi skulle vilja ha en titt: vi gjorde det, och här är vad vi hittade.

Den DGX-2 ‘förpackning’

nvidia-dgx2-bezel-removed.jpg

Den DGX-2 är stor och gömmer sig bakom ett införande av guld crackle-finish bezel.

Bild: Alan Stevens/ZDNet

Liksom prestanda, storlek är en stor konkurrensfördel med DGX-2 som har samma crackle-finish guld bezel som DGX-1, men som är fysiskt mycket större, väger in på 154.2 kg (340lbs) jämfört med 60.8 kg (134lbs) för DGX-1 och tidskrävande 10 rack enheter istället för 3.

nvidia-dgx2-rear-view.jpg

Den här bilden visar baksidan av 10U DGX-2 chassi med plats för två GPU fack (bara en in situ), med tom server-och PCIe-fack slots nedan, plus tre hot-swap nätaggregat på vardera sidan.

Bild: Alan Stevens/ZDNet

nvidia-dgx2-rack-power.jpg

Särskild uppmärksamhet krävs för att driva och kyla, speciellt i en blandad rack. Här, tillsammans med några herrelösa nätverkskablar, är hur strömmen matas till rack i Boston Labs.

Bild: Alan Stevens/ZDNet

Det är också värt att notera att DGX-2 behöver mycket mer makt än sin lillebror, som kräver upp till 10kw projekt på full tilt, stiger till 12kW för den nyligen annonserade DGX-2H-modellen (om vilken mer inom kort). Bilden nedan visar den makt arrangemang på Boston som behövs för att hålla denna lilla odjuret glad. Kyla, på samma sätt, måste övervägas noga, speciellt om mer än en DGX-2 installeras eller där det är installerat tillsammans med annan hårdvara i samma rack.

Distribution av denna makt är en uppsättning av sex hot-swap och redundant PSUs att glida i på baksidan av chassit tillsammans med de olika moduler som gör upp resten av systemet. Kyla, under tiden, hanteras genom en uppsjö av 10 fans som ligger bakom frontplattan med rum på båda sidor för 16 2,5-tums lagringsenheter i två banker åtta.

nvidia-dgx2-ssd.jpg

Med 8 NVMe Ssd-enheter, DGX-2 levereras med 30 TB lagringsutrymme, lämnar åtta vikar gratis för expansion.

Bild: Alan Stevens/ZDNet

Nvidia har åtta 3.84 TB Micron 9200 Pro NVMe driver som en del av bas-konfiguration, vilket motsvarar drygt 30TB hög prestanda lagring. Detta är dock mest till för att hantera lokala data, med ytterligare lagring på stora moderkort för OS och program kod. Det lämnar också åtta tomma vikar att lägga till mer lagringsutrymme om det behövs. Dessutom DGX-2 är sprängfylld med hög bandbredd gränssnitt nätverk för att ansluta till ännu större kapacitet och bygga server kluster om det behövs.

Intel bitar

nvidia-dgx2-server-motherboard.jpg

Ett par 24-core Xeon-Platina-processorer, 1,5 TB RAM-minne och ett par NVMe lagring adaptrar är konfigurerade på DGX-2 moderkort.

Bild: Alan Stevens/ZDNet

Dra ut de viktigaste server fack och inuti hittar du en konventionell ser Intel-baserade moderkort med två uttag för Xeon Platinum marker. På det system vi tittade på dessa var 24-core Xeon-Platinum-8168-processorer klockade till 2,7 GHz, även om Nvidia har sedan meddelade DGX-2H modell med något snabbare 3.1 GHz Xeon Platinum 8174-processorer tillsammans med nyare 450W Volta 100 moduler. Detta sker på bekostnad av att kräver mycket mer kraft (upp till 12kW) och kommer förmodligen att lägga till de totala kostnaderna, även om det i skrivande stund är priset för den nya modellen hade ännu inte bekräftats.

Oavsett specifikation, Xeon-processorer som sitter i mitten av moderkortet och omges av 24 fullständigt ifyllt DIMM-platser, vilket ger köparna en imponerande 1,5 TB DDR4 RAM-minne att leka med. Vid sidan av detta finns ett par 960GB NVMe lagring pinnar konfigureras som RAID 1-matris både för att starta OS (Ubuntu Linux) och kan ge utrymme för DGX programvara stack och andra program.

Den vanliga USB-och styrenheter nätverk är också inbyggda i, med två RJ-45 Gigabit-portar på baksidan — en för out-of-band-fjärrhantering och den andra för allmän anslutning. En av de två PCIe-kortplatser också levereras färdig monterad med en dual-port Mellanox ConnectX-5-adapter som kan rymma Ethernet-sändtagare upp till 100GbE för ytterligare bandbredd.

nvidia-dgx2-server-ports.jpg

Samt två inbyggda Gigabit Ethernet-portar, en Mellanox PCIe adapter ger två Ethernet-portar som kan ta 10-100GbE sändtagare.

Bild: Alan Stevens/ZDNet

Den andra PCIe-kortplats är oftast tom, men ännu mer-anslutning är tillgänglig artighet av separat PCIe-fack som sitter precis ovanför den server moderkort. Detta ger ytterligare åtta PCIe-gränssnitt fylld, igen, med Mellanox adaptrar som kan användas för att ansluta till klustrade lagring genom att använda antingen 10 gbe-Ethernet eller InfiniBand EDR 100 sändtagare.

nvidia-dgx2-pcie-tray.jpg

En ytterligare åtta Ethernet eller Infiniband-portar är tillgängliga via PCIe-fack.

Bild: Alan Stevens/ZDNet

Nvidia delar

Och nu lite du har alla väntat på-den 16 Nvidia Tesla V100 Grafikprocessorer som, delvis på grund av sina stora kylflänsar (se nedan), måste vara delade i två socklar.

Som en påminnelse, detta är vad en Tesla Volta 100 modul ser ut som:

nvidia-dgx2-tesla-v100.jpg

Bild: Nvidia

Och detta är vad som åtta Volta 100 moduler se ut när den är installerad inuti en av GPU magasin av en DGX-2:

nvidia-dgx2-gpu-baseboard.jpg

Den 16 Tesla V100 Grafikprocessorer är uppdelad mellan två socklar tillsammans med NVswitch maskinvara som behövs för att koppla ihop dem.

Bild: Alan Stevens/ZDNet

GPU styrelser också hålla NVswitches som behöver vara fysiskt anslutit sig för att Volta 100 moduler för att kommunicera och fungera som en enda GPU. Detta sker genom att fästa två specialdesignade backplanes på baksidan av golvlister när de har dragits in i chassit.

nvidia-dgx2-gpu-backplanes.jpg

Den NVswitches på två GPU golvlister är fysiskt sällskap av dessa djävulska ser backplanes, som fäster på baksidan.

Bild: Alan Stevens/ZDNet

Tesla V100 Grafikprocessorer i sig själva är mycket samma SXM moduler som de i den senaste DGX-1. Alla rum är utrustade med 32 gb HBM2 minne per GPU, så med sexton installerat det dubbla GPU-minne — 512GB — helt och hållet.

Varje GPU har också 5,120 CUDA processorkärnor samt 640 av de mer specialiserade AI-optimerad Tensor kärna. Multiplicerat med sexton, som ger 10,240 Tensor kärnor i totalt och en jättestor 81,920 CUDA medel. Alla som gör en hel del processorkraft, vilket förstärks ytterligare av samtrafik bandbredd på 2,4 TB/sek tillgängliga från NVSwitch teknik med kapacitet att skala ännu längre i framtiden.

Prestanda för att gå

Så mycket då, för hårdvaran. I tillägg till detta har du också få en hel bunt med förinstallerade AI-verktyg redo för att starta upp och börja arbeta.

När du granskar en server det är på denna punkt som vi normalt skulle börja prata om prestanda och resultat av tester som vi normalt skulle köra för att se hur det står sig. Men kör riktmärken på DGX-2 är en långt ifrån trivial uppgift som, med tanke på den typ av djupt lärande och andra HPC arbetsbelastning inblandade, skulle kräva långa sessioner över flera dagar. Så istället kommer vi att få förlita sig på Nvidia: s påståenden, tillsammans med feedback från experter på Boston.

nvidia-dgx2-performance.jpg

Bild: Nvidia

För detta ändamål, rubriken siffra för DGX-2 är en imponerande 2 petaflop (PFLOPS) processorkraft levereras i första hand av Tensor kärnor för att hantera blandade AI utbildning arbetsbelastning. Denna siffra ökar till 2,1 PFLOPS på DGX-2H med hjälp av snabbare 450W Tesla V100 moduler.

För att sätta det i perspektiv, det processorkraft aktiverat DGX-2 för att slutföra FairSeq PyTorch riktmärke på bara 1,5 dagar-som är 10 gånger snabbare än de 15 dagar som behövs för samma test på DGX-1 bara sex månader tidigare. Dessutom, Nvidia menar att för att få samma resultat med hjälp av x86-teknik skulle kräva 300 dual-socket Xeon servrar, som upptar 15 rack och kostar runt $2,7 miljoner euro.

Alla som gör DGX-2 verka som en bra affär på cirka $400.000 (eller motsvarande i GB£), även när du lägger till en kostnad av stöd-som i STORBRITANNIEN, börjar på runt £26,000 (ex. MOMS) per år. Trots den höga prislappen, företag som redan investerar i AI kommer att finna detta mycket prisvärda jämfört med alternativen, vilket bland annat hyra beräkna tid i gemensamt datacenter eller i molnet. Nvidia är också angelägen om att betona att DGX-2 kan också användas för att hantera mindre exotiska HPC arbetsbelastning tillsammans med sin AI uppgifter.

Tänk också på att, även om det DGX-1 och DGX-2 är att bryta ny mark, alternativen är på väg från andra leverantörer. Inte minst SuperMicro, som på sin hemsida redan listor en server som bygger på samma Nvidia HGX-2 förebild som DGX-2. Andra, sådana som Lenovo, är inte långt bakom och dessa alternativ kommer oundvikligen att arbeta för att pressa ned priserna. Vi kommer att följa denna utveckling under 2019.

DE SENASTE OCH RELATERAT INNEHÅLL

IBM, Nvidia par upp på AI-optimerad converged storage system
IBM Spektrum AI med Nvidia DGX är utformad för AI och maskininlärning arbetsbelastning.

MLPerf benchmark resultat att visa upp Nvidia ‘ s top AI utbildning tider
För den första utgåvan av MLPerf, ett mål AI benchmarking svit, Nvidia uppnått bästa resultat i sex kategorier.

Nvidia har som mål att köra neurala nät snabbare, mer effektivt
Eftersom data blir större och modeller växa sig större, djupt lärande är återigen “helt gated av hårdvara.” På VLSI Symposier, Nvidia föreslog några sätt att lösa detta problem.

Nvidia presenterar HGX-2, en server plattform för HPC och AI arbetsbelastning
Plattformen är unik med hög precision, design och funktioner är utformade för växande antal applikationer som kombinerar high-performance computing med AI.

GPU computing: Snabbare djup inlärningskurva
Att bygga upp och utbilda djupt neurala nätverk du behöver stora mängder av multi-core datorkraft. Vi undersöker ledande GPU-baserade lösningar från Nvidia och Boston Begränsad.

AI färdigheter som härskar i de snabbast växande sysselsättning av året (TechRepublic)
Sex av de 15 översta nya jobb 2018 var relaterade till artificiell intelligens, enligt LinkedIn.

Nvidia beskriver slutledning plattform, landar Japans industriella jättar som AI, robotik kunder (TechRepublic)
De nyheter Nvidias dragkraft i AI och data center.

Relaterade Ämnen:

Hårdvara

Recensioner

Förvaring

Datacenter

0