I slutet av konkreta plaza som utgör gården i Salk Institute i La Jolla, Kalifornien, och det finns en tre-hundra-femtio-droppfot till Stilla Havet.
Ibland människor att utforska släppa från högt upp i en paraglider. Om de är mindre äventyrslysten, de kan gå ner för en slingrande stig som kramar klippa hela vägen till botten.
Det är en bra plats att reflektera över matematiska verktyg som heter “stokastiska lutning descent”, en teknik som är kärnan i dagens machine learning form av artificiell intelligens.
Terry Sejnowski har varit att utforska lutning härkomst i årtionden. Sejnowski, som leder ett team på Salk studera vad som kallas komputationell neurovetenskap, har varit mentor till Geoffrey Hinton av Google, en av de tre vinnarna av årets ACM Turing award för bidrag till it i lärande. Han regelbundet delar idéer med Hinton co-mottagare, Yann LeCun av Facebook och Yoshua Bengio av Montreal MILA-institutet för maskininlärning.

Terry Sejnowski På hans kontor vid Salk Institute i La Jolla, Kalifornien. “Vad matematiker upptäcker är att alla dina avsikter är fel om stokastiska lutning härkomst.”
Tiernan Ray för ZDNet.
×
terry-sejnowski.jpg
Den här veckan satte jag mig ner med Sejnowski i sin mysiga kontor, fodrad till tak med böcker, inuti betong bungalows på Salk, för en omfattande chatt om A. I. Ett spännande tema stod ut, föreställningen att hela A. I. fältet är bara början för att förstå den djupa fenomenet lutning härkomst.
“Vad matematiker upptäcker är att alla dina föreställningar är fel om stokastiska lutning härkomst,” Sejnowski sagt.
Också: Googles DeepMind frågar vad det innebär för AI att misslyckas
För att förstå varför det är kräver en kort historielektion från Sejnowski. Han är väl lämpad för uppgiften, har skrivit en utmärkt bok i ämnet som är en del memoarer och en del vetenskap lektion, som kallas Deep Learning Revolution.
Sejnowski mindes hur A. I. hade kommit från sin födelse på 1950-talet. De “regler” forskare i A. I., människor som tog metoder som bygger på logik och symbol manipulation, försökt i årtionden för att göra deras sätt att arbeta, och misslyckats. Deras misslyckande som gjorde rummet i åttio-och nittiotalet för tyst utvecklingen av alternativa skola, “connectionists,” inklusive Sejnowski och Hinton och LeCun och Bengio. Connectionism, som uppnått en fantastisk framgång i Naughts, var omdöpt djupt lärande.
Louis Kahn ‘ s plaza vid Salk Institute i La Jolla, Kalifornien, tittar ut över en tre-hundra-och-femtio-droppfot till havet.
Tiernan Ray för ZDNet.
×
img-8913.jpg
Skillnaden mellan misslyckades logic system och djupt lärande skala. Den connectionists’ neurala nätverk, till skillnad från den baseras på regler, logik-baserad strategi, kunde skala upp till större och större problem som datorer blev mer och mer kraftfulla och data rikare. Regler som inte skala, men att lära sig från data gjorde. Resten är historia, åtminstone Sejnowski.
“Se, folket som gick för logik haft femtio år på sig att visa att det inte skala. Och nu, vi hade för trettio år, från åttiotalet till i dag, att visa att det [connectionism] innebär skala.
“Här, åtminstone med vissa mönster, med mönsterigenkänning, med inlärning och så vidare, vi har något som fjäll,” sade han.
Medan big data och stigande beräkna gjort allt som är möjligt, ingenting skulle ha skalat om det inte vore för den mystiska underliggande verklighet av lutning.
“Det visar sig, det ser ut som om den stokastiska lutning härkomst är magi, hemliga sås”, sade han.
“Det är något speciellt med det.”
Fel av ett neuralt nätverk kan ses som en dal där man försöker att hitta det lägsta punkt, som i denna visualisering av Li et al., 2018. Vandring nedåt dalen letar efter det lägsta punkt är känd i machine learning som stokastiska lutning härkomst. Efter olika punkter i nedstigningen mot ett mindre fel, kan man fastna i en falsk led av framgång, ett lokalt minimum, eller en sadel punkt, eftersom de är kallade.
Li et al., 2018: https://arxiv.org/pdf/1712.09913.pdf
×
den lutning.png
Gradient härkomst är en optimal strategi för neurala nätverk. Ett neuralt nätverk har vad som kallas vikter som bestämmer hur mycket varje enskild komponent av ett neuralt nätverk bör bidra till den slutgiltiga svar som genereras av nätverk.
För att hitta rätt blandning av vikter, neurala nätverk justerar dessa vikter genom att söka ett landskap av geometriska koordinater som liknar en dal. Neurala nätverk justerar vikter i svar till uppgifter i syfte att finna en väg från toppen av dalen, som representerar det största felet, till den lägsta punkten i dalen, som är den minsta mängden fel neurala nätverk kan åstadkomma.
Om det var så enkelt som att hoppa från en klippa vid La Jolla, denna process skulle vara en enkel sak för datorn. Istället, stokastiska lutning härkomst är som att vandra i en okänd bergssidan, som försöker att hitta den snabbaste vägen ner.
Eftersom lutningen härkomst är bara en matematisk konstruktion, en geometrisk modell av vad som händer i sökandet efter en lösning, hela området av A. I. är bara i början av att förstå vad mysterium av att söka hjälp, Sejnowski har gjort gällande.
Också: Google utforskar AI mystiska polytope
På 80-talet, navigera och att lutningen var förlöjligade av MIT vetenskapsman Marvin Minsky som bara en “kulle att bestiga.” (Inversen av gradient härkomst är som att stiga upp till ett toppmöte för högsta noggrannhet.) I Minsky ‘ s visa, var det en alldaglig sök, något som sant lärande och ingenting som representerar verklig intelligens. Liknande attacker har riktats mot djupt lärande till denna dag.
Men sådana attacker misslyckas med att förstå vad det är som kommer i fokus aldrig så långsamt som större och större datorkraft avslöjar aspekter av lutning, Sejnowski har gjort gällande.
“Det här är vad vi har upptäckt, och vad Minsky kunde aldrig ha föreställt sig,” sade han, “eftersom han bodde i låg-dimensionella universum av problem som är så små att du inte kan verkligen utforska vad som händer när du har ett stort utrymme med en miljard parametrar i det.”
Vad har upptäckts är att människors sätt att tänka om lutning härkomst är i allmänhet fel.
I enkla neurala nätverk sökningar, i geometri med bara två eller tre dimensioner, strävan efter att placera på den nedre delen av dalen är fylld med fel varv, som kallas falska lokala minima, som en ås längs vägen som bara ser ut att vara dalgången.
Också: LeCun, Hinton, Bengio: AI konspiratörer som tilldelats prestigefyllda Turing pris
Djupt lärande kunde övervinna de lokala minima via en kombination av större datamängder, större nätverk lager, och tekniker som “drop out”, där vikterna är beskuren från nätverket.
Men Sejnowski utgångspunkt är att inne i fällan av lokala minima är något potentiellt mycket kraftfull. Som matte blir mer komplext med en mer kraftfull dator modeller, alla dessa fel varv börjar bilda något mer meningsfullt.
“Om du har en miljon dimensioner, och du är på väg ner och du kommer till en kant eller något, även om hälften av de dimensioner som kommer upp, den andra halvan är på gång! Så att du alltid hittar ett sätt att komma ut,” förklarar Sejnowski. “Du får aldrig fast” på en ås, åtminstone inte varaktigt.
I den här vyn, klassisk statistisk fälla av “över-montering”, data, vilket kan leda till lokala minima, är faktiskt en välsignelse i förklädnad.
“Det visar sig att över-parameterizing är inte en synd i högre-dimensionella utrymmen. I själva verket ger dig grader av frihet som du kan använda för lärande,” Sejnowski sagt.
Även något så enkelt som linjär regression, Sejnowski sagt, som inte maskininlärning per se, utan endast elementär statistik, tar en underlig ny form i en gradient av potentiellt oändlig skala.
“Det visar sig att även regression — något som är ganska elementär, en stängd bok, hur du passar in på en rak linje igenom en massa punkter, visar det sig när man har att göra med en miljon-dimensionell rymd, är en mycket mer intressant problem; det är som du faktiskt kan passa varje enskild punkt med en rak linje, med undantag för ett fåtal.”
Måste läsa
Vad är AI? Allt du behöver för att vetavad är djupt lärande? Allt du behöver för att vetavad är lärande? Allt du behöver för att vetavad är cloud computing? Allt du behöver veta
Lutningen är de ledande matematiker som studerar djupt lärande till insikter som någon dag kommer att bilda en teori om lärande, Sejnowski är säker.
“Det är geometrin av dessa hög-dimensionella utrymmen, i termer av hur de är organiserade, i termer av hur du får från en plats i rymden till en annan.
“Alla dessa saker pekar mot något som brukar vara mycket rikt matematiskt. Och när vi har förstått det — vi är i början av att utforska det — att vi ska komma upp med ännu mer, stegvis mer effektiva sätt att utforska detta space och en av dessa arkitekturer.”
För aktuella maskinen lärande forskning, det är en omedelbar konsekvens: saker som är mer exakt är mindre önskvärt, inte mer.
“Om du använder en finare optimering teknik som gör det mer exakt, det fungerar inte så bra”, konstaterar han.
“Så det är något speciellt med en optimering teknik som är bullriga, där du är med i mini-serier och det är inte att gå ned i perfekt lutning, men gå ner i en riktning som är bara en ungefärlig neråt.”
Området är “bara i början av att utforska” the mysteries of gradient härkomst, Sejnowski sagt. “Vi har något som fungerar, och vi vet faktiskt inte varför det fungerar.
“När vi gör det, vi kommer att kunna bygga en ännu mer effektiv maskin som kommer att vara mycket mer kraftfull.”
Artificiell Intelligens
LG att utveckla robotar för restauranger
Skalning Agile, anta AI: Hur Intel är att göra DET till en strategisk del av verksamheten
Über vs Lyft: Hur rivaler strategi moln, AI, maskininlärning
Google drar pluggen på AI etik grupp bara några veckor efter starten
Game of Thrones: AI förutspår vem som lever och dör (CNET)
Hur man gör AI etik med prioritet på ditt företag (TechRepublic)
Relaterade Ämnen:
Big Data Analytics
Digital Omvandling
CXO
Sakernas Internet
Innovation
Affärssystem