Cerebras CEO taler om de store konsekvenser for machine learning i selskabets store chip

0
123

Kvaliteten af Data: De første km af machine learning
Til at iværksætte en effektiv machine learning initiativ, virksomhederne er nødt til at starte med data af høj kvalitet — og opretholde en stabil strøm af data til at holde modeller, opdateret, forklarer Dale Brown, Leder af Operationer i Figur af Otte.

Du har måske hørt, at det på mandag, Silicon Valley Cerebras Systemer afsløret en af verdens største chip, kaldet WSE, eller “wafer-skala motor,” udtales “kloge”. Det kommer til at blive bygget ind i komplet it-systemer, der sælges af Cerebras.

Hvad du måske ikke ved er, at WSE og de systemer, der gør det muligt at have nogle spændende konsekvenser for dyb læring former for AI, ud over blot at fremskynde beregninger.

Cerebras medstifter af og chief executive Andrew Feldman talte med ZDNet lidt om, hvilke ændringer der bliver muligt i dyb læring.

Der er tre umiddelbare konsekvenser, der kan ses i det, vi kender WSE så langt. Det første, et vigtigt aspekt af dybe netværk, der er kendt som “normalisering,” kan få en overhaling. For det andet er begrebet “sparsity,” der beskæftiger sig med individuelle data peger snarere end en gruppe eller “parti,” kan tage en mere central rolle i dyb læring. Og for det tredje, som folk begynder at udvikle sig med WSE system i tankerne, mere interessante former for parallel behandling kan blive et fokus, end tilfældet har været indtil nu.

Alt dette udgør, hvad Feldman siger, er det hardware frigøre design valg og eksperimenter i dyb læring.

cs-wafer-comparison-gpu-black.jpg

Cerebras ‘ s “wafer-skala motor,” til venstre, i forhold til en top-of-the-line graphics processing unit fra Nvidia, “V100” populær i dyb læring uddannelse.

Cerebras Systemer.

“Vi er stolte over, at vi kan langt fremskynde den eksisterende, banebrydende modeller af Hinton og Bengio og LeCun,” siger Feldman, henviser til tre dybe læring pionerer, der vandt dette års ACM ‘ s Turing award for deres arbejde i dyb læring, Geoffrey Hinton, navn som egentlig betyder yoshua Bengio, og Yann LeCun.

“Men det mest interessante er de nye modeller endnu at blive udviklet,” tilføjer han.

“Størrelsen af universet af modeller, der kan blive uddannet, er meget stort,” siger Feldman, “men den sub-set, der fungerer godt på en GPU er meget lille, og det er der, hvor tingene har været fokuseret så langt,” med henvisning til graphics processing chips fra Nvidia, der er den vigtigste beregne enhed for dyb læring uddannelse.

De første tegn på, at noget meget interessant, der skete med Cerebras kom i en artikel udgivet på arXiv pre-print server i Maj Vitaliy Chiley og kolleger på Cerebras, med titlen “Online Normalisering for Uddannelse af Neurale Netværk.” I dette papir, forfatterne foreslår en ændring af den måde, machine learning netværk er bygget, der kaldes normalisering.

Også: AI er en ændring af hele naturen af compute

“De måder, hvorpå problemer har altid været angrebet har samlet sig omkring dem en hel række af voks og forsegling streng og lille måder at korrigere for svagheder,” bemærker Feldman. “De synes næsten at kræve, at du må arbejde på den måde, en GPU gør du ønsker at arbejde.”

Feldman påpeger partier er en artefakt af Gpu ‘er’ form for parallel behandling. “Tænk over, hvorfor store partier kom i første omgang,” siger han. “Den grundlæggende matematik i neurale netværk er en vektor gange en matrix.” “Hvis du gør, at det efterlader en GPU med en meget lav udnyttelse, som et par procent udnyttet, og det er virkelig dårligt.”

Også: Google siger, ‘eksponentielle vækst af AI er ved at ændre karakter beregne

Så, blandeanlæg, blev det foreslået, at fylde op på GPU ‘ s pipeline af operationer. “Hvad de gjorde, er de stablet vektorer på toppen af hinanden for at lave en matrix af matrix-multiplikation og stabling af disse vektorer er, hvad der kaldes en mini-parti.”

Alt dette betyder, at samling er “ikke drevet af machine learning teori, de er drevet af behovet for at opnå en udnyttelse af en GPU, det er en sag for os at bøje vores neurale net tænker, at det behov for en meget bestemt hardware arkitektur, men det er bagud.”

“En af de ting, vi er mest begejstret for er, at WSE giver dig mulighed for at gøre dybe læring den måde, dyb læring ønsker at blive gjort, ikke shoehorned i en særlig arkitektur,” erklærer Feldman.

WSE er beregnet til, hvad der kaldes small batch size, eller virkelig, “en batch size på én.” I stedet for jamming masser af prøver gennem alle tilgængelige kredsløb, WSE er hard-wired kredsløb, som kun begynder at beregne, når det registrerer et enkelt prøve, der har ikke-nul værdier.

cerebrasfeldmanresized.jpg

Cerebras Systemer, medstifter og administrerende DIREKTØR Andrew Feldman.

Tiernan Ray.

Fokus på sparsom signaler er en irettesættelse til “data parallelitet” kører flere prøver, hvilket, igen, er en anakronisme af GPU ‘ en, har gjort gældende, Feldman. “Data parallelitet betyder, at din individuelle vejledning vil blive anvendt til flere stykker af data på samme tid, herunder om de er nul, hvilket er perfekt, hvis de er aldrig nuller, som i grafik.

“Men når op til 80% er nul, som i et neuralt netværk, er det ikke smart på alle-det er ikke klogt.” Han bemærker, at den gennemsnitlige neurale netværk, “ReLU,” den mest almindelige form for aktivering enhed til en kunstig neuron, har “80% nuller, som et output.”

At være i stand til at håndtere sparsomme signaler, der ser ud til at være en vigtig retning for dyb læring. I en tale til et chip-konference i februar, i den Internationale ssd-Kredsløb Konference, Facebook ‘ s chef for AI forskning, Yann LeCun, bemærkes, at “Som størrelsen af DL-systemer vokser, moduler’ aktiveringer vil sandsynligvis blive stadig mere sparsomme, med kun en delmængde af variabler af en delmængde af moduler, der er ved at blive aktiveret på en gang.”

Det er tættere på, hvordan hjernen virker, gjort gældende, LeCun. “Desværre, med den nuværende hardware, blandeanlæg er, hvad giver os mulighed for at reducere de fleste lav-niveau neurale netværk operationer til matrix produkter, og derved reducere den hukommelse, der er inkluderet-til-beregning forhold,” sagde han, som et ekko af Feldman.

“Dermed får vi brug for nye hardware-arkitekturer, der kan fungere effektivt med en batch size på én.”

Hvis traditionelle data parallelitet af Gpu ‘ er er mindre end det optimale, Feldman gjort gældende, WSE gør det muligt at foretage en form for renæssance parallel behandling. Især den anden form for parallelitet kan udforskes, kaldet “model parallelitet,” hvor forskellige dele af netværket grafen for dyb læring fordeles til forskellige områder af chip og køre i parallel.

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software