Cerebras CEO vertelt over de grote gevolgen voor de machine-leren in bedrijf grote chip

0
148

De kwaliteit van de Gegevens: De eerste mijl van machine learning
Voor de lancering van een effectieve machine learning initiative, bedrijven moeten om te beginnen met de kwaliteit van de gegevens — en onderhouden van een gestage stroom van gegevens om de modellen bijgewerkt, legt Dale Brown, Hoofd van de Operaties in Figuur Acht.

Je hebt misschien gehoord dat, op maandag, Silicon Valley Cerebras Systemen onthuld, ‘ s werelds grootste chip, genaamd de WSE, of “wafer-scale-motor”, uitgesproken als “wijzen”. Het zal worden gebouwd in volledig computing-systemen verkocht door Cerebras.

Wat u misschien niet weet is dat de WSE en de systemen die het mogelijk hebben een aantal fascinerende gevolgen voor diep leren vormen van AI, niet slechts op het versnellen van de berekeningen.

Cerebras mede-oprichter en chief executive Andrew Feldman gesprek met ZDNet een beetje over wat veranderingen mogelijk worden in de diepe leren.

Er zijn drie directe gevolgen die kunnen gezien worden in wat we weten van de WSE zo ver. Ten eerste, een belangrijk aspect van diepe netwerken, bekend als de “normalisatie” moge de schop. Ten tweede, het concept van “sparse,” van omgaan met individuele gegevenspunten in plaats van een groep of “batch” kan een meer centrale rol in de diepe leren. En ten derde, als mensen beginnen te ontwikkelen met de WSE-systeem in het achterhoofd, meer interessante vormen van parallelle verwerking kan een focus te hebben dan het geval is geweest tot nu toe.

Dit alles vertegenwoordigt wat Feldman zegt is de hardware vrijmaken ontwerp keuzes en experimenten in diep leren.

cs-wafer-comparison-gpu-black.jpg

Cerebras de “wafer-scale motor,” links, in vergelijking met een top-of-the-line grafische processor van Nvidia, de “V100,” populair in deep learning training.

Cerebras Systemen.

“We zijn trots dat we kunnen enorm versnellen van de bestaande, baanbrekende modellen van Hinton en Bengio en LeCun”, zegt Feldman, verwijzend naar de drie diep leren pioniers die won dit jaar de ACM Turing award voor hun werk in de diepe leren, Geoffrey Hinton, Yoshua Bengio, en Yann LeCun.

“Maar wat het meest interessant zijn de nieuwe modellen nog ontwikkeld te worden,” voegt hij toe.

“De grootte van het universum van de modellen die kunnen worden opgeleid is erg groot”, zegt Feldman, “maar de sub-set die goed werken op een GPU is zeer klein, en dat is waar de dingen zich zo ver,” verwijzend naar de graphics processing chips van Nvidia zijn de belangrijkste berekenen apparaat voor deep learning training.

Het eerste teken dat er iets heel interessants aan het gebeuren was met Cerebras kwam in een papier geplaatst op het arXiv pre-print server in Mei door Vitaliy Chiley en collega ‘ s bij Cerebras, met de titel “Online Normalisatie voor het Trainen van Neurale Netwerken.” In dat papier, de auteurs stellen een wijziging in de manier van ‘machine learning’ netwerken zijn gebouwd, de zogenaamde normalisatie.

Ook: AI is het veranderen van de hele natuur van berekenen

“De manieren waarop problemen hebben altijd al aangevallen hebben verzameld rond hen een hele reeks van lakzegels en string en weinig manieren om te corrigeren voor de zwakke punten,” aldus Feldman. “Ze lijken bijna te eisen dat je werk doen op de manier waarop een GPU maakt je werk doen.”

Feldman punten uit batches zijn een artefact van de Gpu ‘s’ vorm van parallelle verwerking. “Denk na over waarom grote batches kwam in de eerste plaats,” zegt hij. “De fundamentele wiskunde in het neurale netwerken is een vector keer een matrix.” Echter, “als je dat laat een GPU op een zeer laag gebruik, zoals een paar procent benut, en dat is echt slecht.”

Ook: Google zegt ‘exponentiële groei’ van de AI is het veranderen van de aard van het berekenen van

Dus, batching werd voorgesteld aan het vullen van de GPU ‘ s pijplijn van de activiteiten. “Wat ze doen is gestapeld vectoren op de top van elke andere te maken van een matrix-door-matrix vermenigvuldigen, en het stapelen van die vectoren noemen we een mini-batch.”

Dit alles betekent dat het groeperen is “niet gedreven door machine learning theorie, ze worden gedreven door de noodzaak om enkele gebruik van een GPU; het is een zaak van ons buigen onze neurale net denken aan de behoeften van een zeer specifieke hardware architectuur, maar dat is achteruit.”

“Een van de dingen die we het meest enthousiast over zijn, is dat WSE kunt u doen om diep het leren van de manier diep leren wil te doen, niet te klein voor twee personen in een bepaalde architectuur”, aldus Feldman.

De WSE is bedoeld voor de zogenaamde kleine batch-grootte, of eigenlijk, “een seriegrootte van één.” In plaats van blokkerend veel van monsters via elk beschikbaar circuit, de WSE heeft vaste circuits die begint pas te berekenen als het detecteert een enkel monster dat niet-nul waarden.

cerebrasfeldmanresized.jpg

Cerebras Systemen mede-oprichter en CEO Andrew Feldman.

Tiernan Ray.

De focus op verspreide signalen is een berisping voor de “data parallellisme” van het uitvoeren van meerdere monsters, die, nogmaals, is een anachronisme van de GPU, stelt Feldman. “Gegevens parallellisme betekent dat uw individuele aanwijzingen zullen worden toegepast op meerdere delen van gegevens op hetzelfde moment, ook wanneer ze nul zijn, die perfect als ze zijn nooit nul zijn, zoals in de afbeeldingen.

“Maar als 80% is nul, als in een neuraal netwerk, het is niet slim — het is niet verstandig.” Hij merkt op dat in de gemiddelde neurale netwerk, de “ReLU,” de meest voorkomende vorm van activering eenheid voor een kunstmatig neuron, heeft “80% nullen als een uitvoer.”

Omgaan met schaarse signalen eruit als een belangrijke richting voor diep leren. In een toespraak van een chip die conferentie in februari, de International Solid-State Circuits Conferentie, Facebook het hoofd van AI onderzoek, Yann LeCun, merkte op dat “Als de grootte van DL-systemen groeit, de modules’ activaties zal waarschijnlijk worden meer en meer schaars, met alleen een subset van variabelen van een subset van de modules worden geactiveerd op elk moment.”

Dat is dichter bij hoe het brein werkt, stelt LeCun. “Helaas, met de huidige hardware, batching is wat ons in staat stelt te verminderen meest laag-niveau neurale network operations matrix producten, en daarmee het memory access-to-berekening ratio’, zei hij, in navolging van Feldman.

“Dus, we moeten een nieuwe hardware-architecturen die kan functioneren met een seriegrootte van één.”

Als de traditionele gegevens parallellisme van de Gpu ‘ s is minder dan de optimale, Feldman stelt WSE maakt het mogelijk om een soort renaissance van de parallelle verwerking van gegevens. In het bijzonder, de andere soort van overeenkomst ontdekt, genaamd “model parallellisme,” waar de afzonderlijke delen van het netwerk grafiek van diep leren zijn verdeeld naar de verschillende delen van de chip en parallel uitgevoerd.

Verwante Onderwerpen:

Big Data Analytics

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software