AI pioneer Sejnowski siger, at det handler om gradienten

0
189

I slutningen af konkrete plaza, der danner den indre gårdhave på Salk Institute i La Jolla, Californien, der er en tre-hundrede og halvtreds fod falde til Stillehavet.

Sommetider folk udforsk at falde fra højt oppe i en paraglider. Hvis de er mindre adventuresome, de kan gå ned ad en bugtet sti, der knus klippe hele vejen til bunden.

Det er et godt sted, hvorfra man kan reflektere på det matematiske værktøj kaldet “stokastisk gradient descent”, en teknik, der er i centrum for dagens machine learning form for kunstig intelligens.

Terry Sejnowski har været at undersøge, gradient descent i årtier. Sejnowski, der leder et team på Salk at studere, hvad der er kaldet computational neuroscience, har været en mentor til Geoffrey Hinton af Google, er en af de tre vindere af årets ACM ‘ s Turing award for bidrag til computing i machine learning. Han jævnligt deler ideer med Hinton ‘s co-modtagere, Yann LeCun af Facebook og navn som egentlig betyder yoshua Bengio af Montreal’ s MILA institut for machine learning.

terry-sejnowski.jpg

Terry Sejnowski I hans kontor på Salk Institute i La Jolla, Californien. “Hvad matematikere er ved at opdage, at alle dine intentioner er galt stokastisk gradient descent.”

Tiernan Ray til ZDNet.

×

terry-sejnowski.jpg

I denne uge satte jeg mig ned med Sejnowski i hans hyggelige kontor, foret til loftet med bøger, inde i de konkrete bungalows på Salk, til en bred snak om, A. I. Et spændende tema stod ud af, den forestilling, at hele A. I. felt er kun lige begyndt at forstå den dybere fænomen, gradient descent.

“Hvad matematikere er ved at opdage, er, at alle på din intuition er galt stokastisk gradient descent,” Sejnowski sagde.

Også: Google ‘ s DeepMind spørger, hvad det betyder for AI til at mislykkes

For at forstå, hvorfor det kræver en kort historie lektion fra Sejnowski. Han er velegnet til den opgave, der har skrevet en fremragende bog om emnet, der er en del erindringsbog og en del videnskab lektion, kaldet Deep Learning Revolution.

Sejnowski mindede om, hvordan A. I. havde udviklet sig fra sin fødsel i 1950’erne. “Regler, der-baseret” forskere i A. I., folk, der tog metoder, der er baseret på logik og symbol manipulation, forsøgt i årtier, til at gøre deres tilgang til arbejdet, og det mislykkedes. Deres manglende gjort plads i firserne og halvfemserne for at stille fremskridt, som den alternative skole, “connectionists,” herunder Sejnowski og Hinton og LeCun og Bengio. Connectionism, som det har opnået en fantastisk succes i Naughts, blev omdøbt dyb læring.

img-8913.jpg

Louis Kahn ‘ s plaza på Salk Institute i La Jolla, Californien, og kigger ud over en tre-hundrede-og-halvtreds-mund drop til havet.

Tiernan Ray til ZDNet.

×

img-8913.jpg

Forskellen mellem mislykkedes logiske systemer og dybe læring er skala. Den connectionists’ neurale netværk, i modsætning til de regler, der-baseret, logik-baseret tilgang, der var i stand til at skalere op til en større og større problemer, som computere blev mere og mere kraftfulde og data mere rigeligt. Regler, der ikke omfanget, men at lære fra data, der gjorde. Resten er historie, i det mindste at Sejnowski.

“Se, de mennesker, der gik for logik havde halvtreds år til at vise, at det ikke skala. Og nu, vi havde tredive år, fra firserne til i dag, for at vise, at det [connectionism] gør skala.

“Her, i det mindste med nogle mønstre, med mønstergenkendelse, med forstærkning for at lære, og så videre, vi har noget at skalaer,” sagde han.

Mens big data og stigende beregne gjort alt dette muligt, ville intet have vejet, hvis det ikke var for den mystiske underliggende virkelighed gradient.

“Det viser sig, at det ser ud som om den stokastiske gradient descent er den magi, de hemmelige sauce,” sagde han.

“Der er noget særligt om det.”

the-gradient.png

Den fejl af en neurale net kan ses som en dal, hvor man forsøger at finde det laveste punkt, som i denne visualisering af Li et al., 2018. Trekking ned i dalen for at se det laveste punkt er kendt i machine learning som stokastiske gradient descent. Efter forskellige punkter i nedstigning mod en mindre fejl, man kan blive fanget i en falsk punkt for succes, et lokalt minimum, eller en sadel punkt, som de er kaldet.

Li et al., 2018: https://arxiv.org/pdf/1712.09913.pdf

×

-gradient.png

Gradient descent er en optimering tilgang til neurale netværk. Et neuralt netværk er det, der kaldes vægte, der beslutter, hvor meget en enkelt del af et neuralt netværk skal bidrage til det endelige svar, der er genereret af netværket.

At finde den rigtige blanding af vægte, neurale netværk, der justerer disse vægte ved at søge et landskab af geometriske koordinater, der ligner en dal. Det neurale netværk, der gentagne gange justerer vægtene i svar til data, med henblik på at finde en sti fra toppen af dalen, der repræsenterer den største fejl, til det laveste punkt i dalen, der repræsenterer den mindste mængde af fejl i det neurale netværk, der kan opnå.

Hvis det var så let som at springe ud fra klippen ved La Jolla, denne proces, ville det være en enkel sag for computeren. I stedet stokastisk gradient descent er som at vandre gennem en ukendt bjergside, forsøger at finde den hurtigste vej ned.

Fordi gradient descent er blot en matematisk konstruktion, en geometrisk model af, hvad der foregår i søgen efter en løsning, hele feltet af A. I. er kun begyndt at fatte, hvad mysteriet om, at søge midler, Sejnowski gjort gældende.

Også: Google udforsker AI ‘ s mystiske polytope

I 80’erne, navigation, der gradient blev hånet af MIT videnskabsmand Marvin Minsky ‘ som blotte “hill climbing.” (Den inverse af gradient descent er ligesom stigende til et topmøde med højeste nøjagtighed.) I minsky ‘ s opfattelse, at det var et ubetydeligt søgning, ikke noget som ægte læring og intet, der repræsenterer faktiske intelligens. Lignende angreb er rettet mod dyb læring, til at denne dag.

Men sådanne angreb kan ikke forstå, hvad der kommer i fokus nogensinde så langsomt større og større computerkraft, afslører aspekter af gradient, Sejnowski gjort gældende.

“Her er hvad vi har opdaget, og hvad Minsky’ aldrig kunne have forestillet sig,” sagde han, “fordi han levede i lav-dimensionelle univers af problemer, der er så små, at du ikke kan virkelig at udforske, hvad der sker, når du har et stort rum, med en milliard parametre i det.”

Hvad der er blevet opdaget er, at den måde, folk tænker om gradient descent er generelt forkert.

I simple neurale netværk søgninger, i geometri af kun to eller tre dimensioner, den søgen efter at placere i bunden af dalen er fyldt med forkerte valg, som kaldes et falsk lokale minima, som en højderyg langs den måde, at det kun ser ud til at være dalen gulvet.

Også: LeCun, Hinton, Bengio: AI sammensvorne tildelt prestigefyldte Turing-prisen

Dyb læring var i stand til at overvinde de lokale minima via en kombination af større datasæt, mere netværk lag, og teknikker som “drop out”, hvor vægtene er beskåret fra nettet.

Men Sejnowski pointe er, at inde i den fælde, lokale minima er noget potentielt meget kraftfuld. Som math får mere kompleks med mere kraftfuld computer modeller, alle de forkerte valg, begynde at danne noget mere meningsfyldt.

“Hvis du har en million dimensioner, og du er på vej ned, og du kommer til en højderyg, eller noget, selv om halvdelen af de dimensioner, der er på vej op, den anden halvdel er på vej ned! Så du kan altid finde en måde at komme ud,” forklarer Sejnowski. “Du får aldrig fanget” på en højderyg, i det mindste, ikke permanent.

I denne opfattelse, er den klassiske statistiske fælde “over-tilpasning” den data, som kan føre til, at lokale minima, er faktisk en velsignelse i forklædning.

“Det viser sig, at over-parameterizing er ikke en synd i højere-dimensionale rum. I virkeligheden er det giver dig grader af frihed, som du kan bruge til at lære,” Sejnowski sagde.

Selv noget så simpelt som lineær regression, Sejnowski sagde, der er ikke machine learning per se, men blot elementær statistik, tager på en mærkelig ny form i en gradient af potentielt uendelig skala.

“Det viser sig, at selv regression — noget, der er en slags elementære, en lukket bog, hvordan du passer en lige linje gennem en bunke point — det viser sig, når man beskæftiger sig med en million-dimensionelle rum, er en langt mere interessant problem; det er ligesom, du kan rent faktisk passer til hvert enkelt punkt med en lige linje, bortset fra et meget lille antal.”

Skal læse

Hvad er AI? Alt hvad du behøver for at knowWhat er dyb læring? Alt hvad du behøver for at knowWhat er machine learning? Alt hvad du behøver for at knowWhat er cloud computing? Alt, hvad du behøver at vide

Gradienten er de førende matematikere, der studerer dybt læring mod indsigt, som en dag vil danne en teori om machine learning, Sejnowski er sikker.

“Det er geometrien af disse høj-dimensionale rum, i forhold til hvordan de er organiseret, i form af den måde, du får fra et sted i rummet til et andet.

“Alle disse ting peger hen imod noget, der har tendens til at være meget rig matematisk. Og når vi har forstået det — vi er begyndt at udforske det — vi vil komme med endnu flere, gradvist mere effektive måder at udforske denne plads for disse arkitekturer.”

For nuværende machine learning forskning, der er en umiddelbar konsekvens: ting, der er mere præcise, er mindre ønskelige, ikke mere.

“Hvis du benytter en mere avanceret optimering teknik, der gør det mere præcist, det virker ikke så godt,” bemærker han.

“Så der er noget særligt ved en optimering teknik, der er støjende, hvor du tager på mini-partier, og det er ikke at gå ned til den perfekte hældning, men går ned i en retning, der er kun en omtrentlig ned ad bakke.”

Feltet er “lige er begyndt at udforske” mysterier gradient descent, Sejnowski sagde. “Vi har noget, der virker, og at vi faktisk ikke ved, hvorfor det virker.

“Når vi gør det, vil vi være i stand til at opbygge en endnu mere effektiv maskine, som vil være langt mere magtfulde.”

Kunstig Intelligens

LG til at udvikle robotter til restauranter

Skalering Agile, vedtagelse af AI: Hvordan Intel er ved at gøre DET til en strategisk del af forretningen

Uber vs. Lyft: Hvordan rivaler tilgang cloud, AI, machine learning

Google trækker stikket på AI etik gruppe kun et par uger efter starten

Game of Thrones: AI bestemmer hvem der lever og dør (CNET)

Hvordan til at gøre AI-etik til en prioritet på din virksomhed (TechRepublic)

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software