Cerebras VD berättar om den stora konsekvenser för lärande i bolagets stora chip

0
83

Kvalitet Data: Den första kilometern av maskininlärning
Att lansera en effektiv maskin lärande initiativ, företag behöver för att börja med kvalitet data — och upprätthålla ett jämnt flöde av data för att hålla uppdaterade modeller, förklarar Dale Brown, Chef för Verksamheten vid Åtta.

Du kanske har hört att, på måndag, Silicon Valley Cerebras System presenterade världens största chip, som kallas IL, eller en “wafer-skala motor,” uttalas “klok.” Det kommer att byggas till kompletta datorsystem som säljs av Cerebras.

Vad du kanske inte vet är att WSE och de system som gör det möjligt att ha en del intressanta konsekvenser för djupt lärande former av AI, utöver bara att snabba upp beräkningar.

Cerebras grundare och chief executive Andrew Feldman pratade med ZDNet lite om vilka förändringar som blir möjligt i djup inlärning.

Det finns tre direkta konsekvenser som kan ses i vad vi vet om WSE så långt. För det första, en viktig aspekt av djup nätverk, känd som “normalisering”, kan få en översyn. För det andra, begreppet “gleshet,” för att hantera enskilda datapunkter snarare än en grupp eller ett “parti” kan ta en mer central roll i djup inlärning. Och för det tredje, när människor börjar att utvecklas med WSE system i åtanke, mer intressanta former av parallell bearbetning kan bli en inriktning än vad som varit fallet fram tills nu.

Detta är vad Feldman säger är hårdvaran frigöra design val och experiment i djup inlärning.

cs-wafer-comparison-gpu-black.jpg

Cerebras är “wafer-skala motor,” vänster, jämfört med en top-of-the-line grafik processor från Nvidia, “V100,” populära i deep learning utbildning.

Cerebras System.

“Vi är stolta över att vi kan avsevärt påskynda den befintliga, banbrytande modeller för Hinton och Bengio och LeCun, säger Feldman, med hänvisning till tre djupa lärande pionjärer som vann årets ACM Turing award för sitt arbete i djupt lärande, Geoffrey Hinton, Yoshua Bengio, och Yann LeCun.

“Men vad är mest intressant är de nya modellerna som ännu inte utvecklat,” tillägger han.

“Storleken på universum av modeller som kan vara utbildade är mycket stor, konstaterar Feldman, “men de sub-set som fungerar bra på en GPU är mycket liten, och det är där saker och ting har varit fokuserad så långt”, med hänvisning till grafik chips bearbetning av Nvidia som är de viktigaste beräkna enheten för djupt lärande utbildning.

Det första tecknet på att något mycket intressant som händer med Cerebras kom i en artikel publicerad på arXiv pre-print server i Maj med Vitaliy Chiley och kollegor på Cerebras, med titeln “Online Normalisering för Utbildning Neurala Nätverk.” I det papper, författarna föreslår en förändring till hur maskinen lärande nätverk är byggt, som kallas normalisering.

Också: AI är att förändra hela karaktären hos beräkna

“De sätt på vilka problem har alltid attackerats har samlats runt dem en hel uppsättning av vax tätning och sträng och små sätt att korrigera för bristerna, säger Feldman. “De verkar praktiskt att kräva att du gör fungerar som en GPU gör att du arbetar.”

Feldman påpekar partier är en artefakt av Grafikprocessorer ” form av parallell bearbetning. “Tänk om varför stora partier kom i första hand, säger han. “Det grundläggande matematik i neurala nätverk är en vektor gånger en matris.” Men, “om du gör som det lämnar en GPU på en mycket låg utnyttjandegrad, som är några få procent som används, och som är riktigt dåligt.”

Också: Google säger ” exponentiell tillväxt av AI är föränderliga natur beräkna

Så, dosering föreslogs att fylla upp GPU ledning av verksamheten. “Vad de gjorde är de staplade vektorer på toppen av varandra för att göra en matris-av-matris föröka dig, och för stapling av dessa vektorer är vad som kallas en mini-sats.”

Allt detta innebär att dosering är “inte drivs av maskininlärning teori, de drivs av behovet av att uppnå vissa utnyttjande av en GPU; det är ett fall av oss böja våra neurala nätet tänkande behov av en mycket speciell hårdvara, men det är bakåt.”

“En av de saker vi är mest glada över är att WSE kan du göra djupa lära sig hur djupt lärande vill att ske, inte shoehorned i ett särskilt arkitektur”, förklarar Feldman.

WSE är avsett för vad som kallas small batch-storlek, eller egentligen, “en batch-storlek för en.” I stället för att det fastnar massor av prover via alla tillgängliga krets, WSE har hårt fast krets som bara börjar att beräkna när den upptäcker ett enda prov som har icke-nollvärden.

cerebrasfeldmanresized.jpg

Cerebras System co-grundare och VD Andrew Feldman.

Tiernan Ray.

Fokus på gles-signaler är en tillrättavisning till “data parallellism” köra flera prover, som, återigen, är en anakronism av GPU, anser Feldman. “Data parallellism innebär att din individuella instruktioner kommer att appliceras på flera bitar av data samtidigt, även om de är nollor, vilket är perfekt om de är aldrig nollor, som i grafik.

“Men när upp till 80% är noll, som i ett neuralt nätverk, det är inte smart alls — det är inte klokt.” Han konstaterar att i den genomsnittliga neurala nätverk, “ReLU,” den vanligaste typen av aktivering enhet för ett artificiellt neuron, har “80% nollor som en utgång.”

För att kunna hantera de glesa signaler ser ut att vara en viktig inriktning för djupt lärande. I ett tal till en chip-konferensen i februari, International Solid-State Circuits Conference, Facebook är chef för AI-forskning, Yann LeCun, konstaterade att “Som storleken av DL-system växer, moduler’ aktiveringar kommer sannolikt att bli allt mer glesa, med endast en delmängd av variablerna för en delmängd av moduler som aktiveras vid en viss tidpunkt.”

Det är närmare till hur hjärnan fungerar, anser LeCun. “Tyvärr, med dagens hårdvara, dosering är vad som tillåter oss att minska på de flesta låg nivå neurala nätverk verksamhet att matrix produkter, och på så sätt minska minne tillgång-till-beräkning-tal”, sade han, ekande Feldman.

“Alltså, vi kommer att behöva nya hårdvaruplattformar som kan fungera på ett effektivt sätt med en batch-storlek för en.”

Om traditionella uppgifter parallellitet av Grafikprocessorer är mindre än optimalt, Feldman har yrkat WSE gör det möjligt att på ett slags renässans för parallell bearbetning. I synnerhet den andra typen av parallellism kan utforskas, som kallas “modell parallellism”, där olika delar av nätet grafen av djupt lärande fördelas till olika delar av chip och löpa parallellt.

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem