Aan het eind van de concrete plaza vormt de binnenplaats van het Salk Instituut in La Jolla, Californië, is een drie-honderd-vijftig voet zakken naar de Stille Oceaan.
Soms zijn mensen ontdekken dat de daling van hoog in een paraglider. Als ze minder avontuurlijk, ze lopen langs een kronkelend pad dat langs de klif helemaal naar de bodem.
Het is een goede plek om te reflecteren op de wiskundige tool genaamd “stochastische gradient descent”, een techniek die in het hart van de huidige machine learning vorm van kunstmatige intelligentie.
Terry Sejnowski is het verkennen van gradient descent voor decennia. Sejnowski, die leidt een team aan het Salk het bestuderen van de zogenaamde computational neuroscience, is een mentor, Geoffrey Hinton van Google, een van de drie winnaars van dit jaar is de ACM Turing award voor bijdrage aan computing in machine learning. Deelt hij regelmatig ideeën met Hinton ‘ s co-ontvangers, Yann LeCun van Facebook en Yoshua Bengio van Montreal MILA instituut voor machine learning.

Terry Sejnowski In zijn kantoor aan het Salk Institute in La Jolla, Californië. “Wat de wiskundigen ontdekken is dat uw bedoelingen zijn verkeerd over stochastische gradient descent.”
Tiernan Ray voor ZDNet.
×
terry-sejnowski.jpg
Deze week zat ik samen met Sejnowski in zijn knusse kantoor, bekleed, aan het plafond met boeken, in de betonnen bungalows aan het Salk, voor een breed gesprek over A. I. Een intrigerend thema stond het idee dat de hele A. I. veld is slechts het begin van het begrijpen van de diepe fenomeen van de gradient descent.
“Wat de wiskundigen zijn het ontdekken is, is dat al je intuïties zijn verkeerd over stochastische gradient descent,” Sejnowski zei.
Ook: Google ‘ s DeepMind vraagt wat het betekent voor de AI om te falen
Om te begrijpen waarom dat zo is, moet u een korte geschiedenis les van Sejnowski. Hij is goed geschikt voor de taak, het schrijven van een prachtig boek over dit onderwerp is onderdeel memoires en wetenschap deel les, genaamd De Diepe Leren Revolutie.
Sejnowski herinnerde zich hoe A. I. had gevorderd vanaf zijn geboorte in de jaren 1950. De “rule-based” onderzoekers in A. I., mensen die benaderingen die gebaseerd zijn op logica en het symbool manipulatie, probeerde in de decennia hun aanpak werkt, en mislukt. Hun falen ruimte gemaakt in de jaren tachtig en negentig voor een rustige voortgang van de alternatieve school van denken, de “connectionists,” met inbegrip van Sejnowski en Hinton en LeCun en Bengio. Connectionism, als het bereikt een prachtig succes in de Naughts, werd omgedoopt tot diep leren.
Louis Kahn ‘ s plaza van het Salk Instituut in La Jolla, Californië, en kijkt uit over een drie-honderd-en-vijftig voet naar de zee.
Tiernan Ray voor ZDNet.
×
img-8913.jpg
Het verschil tussen mislukt logische systemen en diep leren schaal is. De connectionists’ neurale netwerken, in tegenstelling tot de op basis van regels, logica-gebaseerde benadering, in staat waren om op te schalen naar grotere en grotere problemen, zoals computers kreeg meer en meer en meer gegevens er in overvloed. Regels zijn niet op schaal, maar het leren van gegevens deed. De rest is geschiedenis, althans tot Sejnowski.
“Zie, de mensen die gingen voor logica had vijftig jaar om te laten zien dat het niet op schaal. En nu, we hadden dertig jaar, vanaf de jaren tachtig naar vandaag, om te laten zien dat het [connectionism] doet schaal.
“Hier, althans een aantal patronen, patroon herkenning, met reinforcement learning en zo voort, wij hebben iets dat een weegschaal,” zei hij.
Tijdens het big data en de stijgende berekenen gemaakt dat alles mogelijk is, zou er niets zijn geschaald als het niet voor de mysterieuze onderliggende realiteit van het verloop.
“Het blijkt, dat het lijkt alsof de stochastische gradient descent is de magie, de geheime saus”, zei hij.
“Er is iets speciaals.”
De fout van een neuraal net kan worden gezien als een vallei waar men probeert te zoeken naar het laagste punt, zoals in deze visualisatie door Li et al., 2018. De Trekking die vallei op zoek naar die laagste punt is bekend in machine learning als stochastische gradient descent. Na verschillende punten in de afdaling in de richting van een kleinere fout, kan men verstrikt raken in een vals punt van succes, een lokaal minimum of een zadelrug, zoals ze genoemd.
Li et al., 2018: https://arxiv.org/pdf/1712.09913.pdf
×
de gradiënt.png
Gradient descent is een optimalisatie aanpak voor neurale netwerken. Een neuraal netwerk is de zogenaamde gewichten die bepalen hoeveel een onderdeel van een neuraal netwerk moet bijdragen aan het uiteindelijke antwoord dat wordt gegenereerd door het netwerk.
Om het vinden van de juiste mix van gewichten, het neurale netwerk past deze gewichten door te zoeken in een landschap van geometrische coördinaten die lijkt op een vallei. Het neurale netwerk herhaaldelijk past de gewichten in reactie op de gegevens in om het vinden van een pad vanaf de top van de vallei, die vertegenwoordigt de grootste fout, naar het laagste punt in de vallei, wat is de kleinste hoeveelheid van de fout het neurale netwerk kan bereiken.
Als het is zo gemakkelijk als het springen van de rots in La Jolla, dit proces zou eenvoudig zijn voor de computer. In plaats daarvan, stochastische gradient descent is als een wandeling door een onbekend berghelling, op zoek naar de snelste weg naar beneden.
Omdat gradient descent is gewoon een wiskundige constructie, een geometrisch model van wat er aan de hand in het zoeken naar een oplossing, het hele veld van A. I. wordt pas beginnen te begrijpen wat het mysterie van die zoeken betekent, Sejnowski stelt.
Ook: Google AI onderzoekt de mysterieuze polytope
In de jaren ’80, het navigeren door dat verloop werd uitgelachen door MIT-wetenschapper Marvin Minsky als louter “berg beklimmen.” (De inverse van de helling afdaling is zoals een klim naar de top van de hoogste nauwkeurigheid.) In Minsky ‘ s bekijken, het was een onopvallend te zoeken, niets te maken met het echte leren en niets vertegenwoordigt de werkelijke intelligentie. Soortgelijke aanslagen zijn geuit tegen diep leren op deze dag.
Maar zulke aanvallen niet om te begrijpen wat komt in beeld ooit zo langzaam meer en meer rekenkracht onthult aspecten van de gradiënt, Sejnowski stelt.
“Hier is wat we hebben ontdekt, en wat Minsky nooit kunnen bedenken,” zei hij, “want hij woonde in de lage-dimensionale universum van de problemen die zijn zo klein, je kan niet echt ontdekken wat er gebeurt wanneer je een grote ruimte met een miljard parameters in.”
Wat is ontdekt, is dat de manier waarop mensen denken over gradient descent is over het algemeen verkeerd.
In eenvoudige neurale netwerk zoekt, in de geometrie van de twee of drie dimensies, de zoektocht naar die plaats op de bodem van de vallei is beladen met de verkeerde wendingen, de zogenaamde valse lokale minima, zoals een ridge op de weg, die alleen lijkt te zijn in de vallei.
Ook: LeCun, Hinton, Bengio: AI samenzweerders bekroond met de prestigieuze Turing prijs
Diep leren was in staat om te overwinnen deze lokale minima via een combinatie van grotere datasets, meer netwerk lagen, en technieken zoals de “drop-out”, waarin gewichten worden gesnoeid van het netwerk.
Echter, Sejnowski het punt is dat de binnenkant van de val van lokale minima is iets wat potentieel een erg krachtig. Als de wiskunde wordt complexer met meer krachtige computer modellen, al die verkeerde afslagen beginnen te vormen iets meer betekenis.
“Als je een miljoen afmetingen, en je komt naar beneden, en je komt op een richel of iets, zelfs als de helft van de afmetingen gaat omhoog, de andere helft gaat naar beneden! Zo heb je altijd een manier vinden om eruit te komen,” legt Sejnowski. “U krijgt nooit gevangen” op een heuvelrug, op zijn minst, niet permanent.
In deze weergave is de klassieke statistische valkuil van “over-fitting’ van de gegevens, die kunnen leiden tot een lokale minima, is eigenlijk een zegen in vermomming.
“Het blijkt dat over-parameterizing geen zonde is in hoger-dimensionale ruimten. In feite geeft u de mate van vrijheid die u kunt gebruiken voor het leren,” Sejnowski zei.
Zelfs iets eenvoudigs als een lineaire regressie, Sejnowski zei, dat is geen machine learning per se, maar slechts elementaire statistiek, neemt een vreemde nieuwe vorm in een gradiënt van potentieel oneindige schaal.
“Het blijkt dat zelfs de regressie — iets dat soort elementaire, een gesloten boek, hoe je een rechte lijn door een bos van punten — het blijkt dat wanneer je te maken hebt met een miljoen-dimensionale ruimte, is een veel interessanter probleem; je kunt eigenlijk past elk enkel punt met een rechte lijn, met uitzondering van een zeer klein aantal.”
Moet lezen
Wat is AI? Alles wat je nodig hebt om knowWhat is diep leren? Alles wat je nodig hebt om knowWhat is van ‘machine learning’? Alles wat je nodig hebt om knowWhat is cloud computing? Alles wat je moet weten
Het verloop is toonaangevend die wiskundigen die studie diep leren in de richting van inzichten die op zekere dag vorm van een theorie van machine learning, Sejnowski is vertrouwen.
“Het is de geometrie van deze hoog-dimensionale ruimten, in termen van hoe ze zijn georganiseerd, in termen van de manier waarop je van de ene plaats in de ruimte naar de andere.
“Al deze dingen wijzen in de richting van iets dat neigt naar een zeer rijke wiskundig. En als we eenmaal hebben begrepen — beginnen we met het verkennen van het — we komen met nog meer geleidelijk meer efficiënte manieren van het verkennen van de ruimte van deze architecturen.”
Voor de huidige machine learning onderzoek, is er een directe implicatie: dingen die preciezer is, is minder wenselijk, niet meer.
“Als je een liefhebber optimalisatie techniek die doet het meer nauwkeurig, het werkt niet zo goed,” constateert hij.
“Dus er is toch iets speciaals om een optimalisatie techniek die is luidruchtig, waar u in de mini-series en het is niet van plan het perfecte verloop, maar naar beneden gaat in een richting dat is slechts een benadering van beneden.”
Het veld is net begint met het verkennen van” de geheimen van de gradient descent, Sejnowski zei. “We hebben iets dat werkt, en we weten eigenlijk niet waarom het werkt.
“Zodra we dat doen, zullen we in staat zijn om te bouwen van een nog meer efficiënte machine die zal het veel krachtiger.”
Kunstmatige Intelligentie
LG om robots te ontwikkelen voor restaurants
Het schalen van Agile, de vaststelling van AI: Hoe Intel is het maken van een strategisch onderdeel van de business
Uber vs. Lyft: Hoe de rivalen aanpak cloud -, AI -, machine learning
Google trekt de stekker op AI ethiek groep slechts een paar weken na aanvang
Spel der Tronen: AI voorspelt, die leeft en sterft (CNET)
Hoe maak AI ethiek een van de prioriteiten van uw bedrijf (TechRepublic)
Verwante Onderwerpen:
Big Data Analytics
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software