Hvis du skal følge nyhetene innen kunstig intelligens, må du ha med deg en kopi av en engelsk ordbok, og kanskje et par etymologiske ordbøker også.
Dagens dype læringsformer for AI er spredende bruk av vanlige ord som potensielt kan være dypt villedende. Det inkluderer å antyde at maskinen faktisk gjør noe som en person gjør, for eksempel å tenke, resonnere, vite, se, lure.
Det siste eksemplet er et nytt program fra DeepMind, AI -enheten til Google med base i London. DeepMind -forskere avslørte torsdag det de kaller PonderNet, et program som kan ta et valg om de skal utforske muligheter for et problem eller gi opp.
DeepMind uttrykker denne øvelsen fra datamaskinen som “grubling”, men egentlig kan den like gjerne bli kalt “kutt tapene” eller “stanse og ta fyr”, ettersom den faktisk har veldig lite å gjøre med grubling i menneskelig forstand av det begrepet, og mye mer å gjøre med hvordan en datamaskin utfører en oppgave.
Programmet, beskrevet av forskere Andrea Banino, Jan Balaguer og Charles Blundell, bor ved et interessant skjæringspunkt mellom nevrale nettverksdesign og datamaskinoptimalisering.
Programmet handler om effektivitet av beregninger og avveining mellom effektivitet og nøyaktighet. Som forfatterne beskriver det, er PonderNet “en ny algoritme som lærer å tilpasse beregningsmengden basert på kompleksiteten i problemet.”
Også: Googles supermodell: DeepMind Perceiver er et skritt på veien til en AI -maskin som kan behandle alt og alt
PonderNet skaffer seg muligheten til å kutte ut beregningsinnsatsen hvis det ser ut til at anstrengelsen opp til et tidspunkt er tilstrekkelig til at det nevrale nettet kan gjøre en akseptabel spådom. Omvendt kan den utvide beregningene hvis det kan gi bedre resultater.
Programmet balanserer det dype læringsmålet om nøyaktighet på benchmark -tester, på den ene siden mot et sannsynliggjennom gjetning om at ytterligere innsats egentlig ikke vil gjøre stor forskjell.
Banino og kolleger bygde på arbeid av en rekke forskere gjennom årene på områder som betinget beregning. Men deres mest direkte innflytelse ser ut til å være arbeidet til deres Google -kollega Alex Graves.
Graves har samlet en oversikt over interessante undersøkelser i skjæringspunktet mellom nevrale nettverksdesign og datadrift. For eksempel foreslo han og kolleger for noen år siden en “neural Turing -maskin” der valg av minne fra en registerfil ville være et resultat av en beregning av nevrale nettverk.
Når det gjelder PonderNet, bygger Banino og team videre på Graves arbeid i 2016 med det som kalles Adaptive Computation Time. Innsikten i at papiret er innen menneskelig resonnement, problemformulering og løsning er asymmetrisk. Et problem kan noen ganger ta svært liten innsats for å uttrykke, men mye tid å finne ut. Det er lettere å legge til to tall enn å dele dem, selv om symbolbegrepet for eksempel ser nesten identisk ut.
Det klassiske eksemplet, per Graves, er Fermats siste teorem, som matematikere kaller notatet som Pierre de Fermat lagde i margen på en bok som senere tok forskere tre århundrer å bevise.
Så, Graves fant på en måte for en datamaskin å beregne hvor lenge den skulle “tenke” på et forutsigelsesproblem gitt problemets kompleksitet.
Også: DeepMinds AlphaFold 2 avslører: Konvolusjoner er ute, oppmerksomheten er i
Det betyr faktisk hvor mange lag i et nevralnettverk som skal være tillatt for beregning av en prediksjon. Et nevralnettverksprogram er en transformasjonsmaskin: den finner automatisk en måte å transformere input til output. Antall lag kunstige nevroner som input må passeres for å lykkes med å bli transformert til en nøyaktig utgang, er en måte å måle beregningsinnsatsen på.
Å gruble betyr altså å variere antall nettverkslag, og dermed nettverkets beregning, og bestemme hvor snart datamaskinen skal gi opp.
Som Graves skriver,
Av hensyn til både beregningseffektivitet og enkel læring virker det å foretrekke å dynamisk variere antall trinn som nettverket “tenker” på hver input før du sender ut en output. I dette tilfellet blir den effektive dybden til nettverket ved hvert trinn langs sekvensen en dynamisk funksjon av inngangene som er mottatt så langt.
Måten Graves gjorde det på, er å knytte til slutten av et nevrale nettverk det som kalles en “gruvekostnad”, en mengde beregnet tid man prøver å minimere. Programmet forutsier deretter den beste mengden beregning som skal slutte å beregne spådommen.
I ekko av Alan Turings berømte teori om “stoppeproblemet”, som startet databehandlingstiden, merket Graves den delen av programmet som beregner når man skal stoppe basert på kostnaden for “stanseenheten”. ”
Blits frem til PonderNet. Banino og team tar fatt på Graves søken, og deres viktigste bidrag er å re-tolke hvordan man skal tenke på den siste delen, stanseenheten. Banino og team legger merke til at Graves mål er altfor forenklet, ved at det bare ser på det siste nevrale nettverkslaget og sier “det er nok”, som er en ikke veldig sofistikert måte å evaluere beregningskostnader på.
Så forskerne kommer med det de kaller en sannsynlig tilnærming. I stedet for å bare legge til en kostnad for programmet som oppmuntrer det til å bli mer effektivt, bruker utviklingen av PonderNet det som kalles en Markov Beslutningsprosess, en statlig modell der programmet på hvert lag av behandling av nettet beregner hva sannsynligheten er at det er på tide å slutte å beregne.
Også: AI på seksti sekunder
Svaret på det spørsmålet er litt av en balanse: null sannsynlighet for å stoppe kan være standard hvis de første lagene i et nevrale nettverk aldri før har vært et effektivt stoppested; men noe nærmere en hvis tidligere erfaring indikerer at en terskel er krysset der mer beregning vil føre til redusert avkastning.
Som forfatterne definerer det, “Ved evaluering prøver nettverket trinnvis fra den stoppende Bernoulli -tilfeldige variabelen […] for å bestemme om de skal fortsette eller stoppe.”
Beviset ligger i puddingen. Banino og kolleger bruker apparatet på en rekke typer nevrale nettverk for en rekke oppgaver. Tilnærmingen, skriver de, kan brukes til en rekke typer maskinlæringsprogrammer, fra enkle feed-mot nevrale nett til såkalte selvoppmerksomhetsprogrammer som Googles Transformer og dens etterkommere.
I sine eksperimenter finner de ut at programmet faktisk endrer beregningsmengden for å gjøre det bedre på en test. Igjen drar de tilbake til Graves. Det papiret foreslo det som kalles en paritetstest. Skriv inn en haug med sifre i programmet som består av et tilfeldig utvalg på null, ett og negativt, og forutsi hva utgangen deres er. Et veldig enkelt nevrale nettverk, ett med et enkelt lag med kunstige nevroner, vil i utgangspunktet komme med svar som er femti-femti nøyaktige, en myntkast.
Med muligheten til å øke beregningen, gjorde programmet som Graves og kolleger hadde bygget mye bedre. Og Banino og kolleger synes programmet deres gjør det enda bedre enn det. Spesielt, gitt et større antall tilfeldige sifre, fortsetter PonderNet å komme frem til riktig sum med høy pålitelighet, kontra det som begynner å være tilfeldig gjetting av Graves og teamets program.
“PonderNet klarte å oppnå nesten perfekt nøyaktighet på denne harde ekstrapolasjonsoppgaven, mens ACT [Adaptive Computation Time] forble på et tilfeldighetsnivå,” skriver de.
Edgar Allan Poe foreslo ikke optimalisering da han skrev i The Raven “Once upon a midnight dreary, while I grublet, weak and slity.”
Ukjent forfatter; Gjenopprettet av Yann Forget og Adam Cuerden
Du kan se et nøkkelskifte på gang. Graves og team forsøkte å sette en grense, en mengde effektivt beregningsbudsjett som et program bør søke å ikke overskride. Banino og team går på en måte den motsatte veien, ved å sette nivåer for beregning av et program kan det gjentatte ganger hoppe på veien til forbedret nøyaktighet.
Resultatet av all denne fascinerende vitenskapen er at den kan legge til et viktig verktøy for dyp læring, evnen til å anvende forhold på en streng måte til hvor mye arbeid et program bør gjøre for å komme frem til et svar .
Forfatterne merker betydningen for å gjøre nevrale nettverk mer effektive. Det eskalerende beregningsbudsjettet for AI har blitt sitert som et sentralt etisk spørsmål for feltet, gitt risikoen for å forverre klimaendringene. Forfatterne skriver: “Nevrale nettverk […] krever mye tid, kostbar maskinvare og energi for å trene og distribuere.
” PonderNet […] kan brukes til å redusere datamengden og energien ved slutningstidspunktet , noe som gjør den spesielt godt egnet for plattformer med begrensede ressurser som mobiltelefoner. “
Forfatterne foreslår også interessant at PonderNet tar maskinlæring i retning av “å oppføre seg mer som algoritmer, og mindre som” flate “mappings.” Denne endringen kan “bidra til å utvikle dype læringsmetoder til sitt fulle potensial”, argumenterer de, noe kryptisk.
Så lovende som PonderNet høres ut, du bør ikke bli villedet av navnet. Dette er ikke egentlig grubling. Merriam Webster -ordboken definerer ordet gruble som å “veie i tankene.” Definisjonene “reflektere over” og “å tenke på” tilbys også.
Uansett hva som skjer med mennesker når de gjør slike ting, ser det ikke ut til å innebære en kostnadsfunksjon å optimalisere. Et menneske veier heller ikke sannsynligheten for suksess når de tenker, i hvert fall ikke på den måten et program kan lages for å gjøre det.
Visst, noen kan komme inn i rommet, se deg ved pulten din, dypt i tankene, og spør, noe irritert, “du tenker fortsatt på dette?” Andre mennesker knytter til en kostnadsfunksjon, og beregner sannsynligheten for at du kaster bort tiden din. Tenkeren bare grubler.
Poeten Edgar Allan Poe fanget opp noen av den mystiske kvaliteten på grublingen – en ting som er mye mer en opplevelse enn en prosess, en ting uten spor av optimalisering – i åpningslinjen til hans diktet The Raven: “Once upon a midnight dyster, mens jeg grublet, svak og sliten.”
må lese
Etikk for AI: Fordeler og risiko ved kunstig intelligens
Den økende omfanget av AI øker innsatsen for store etiske spørsmål.
Les mer
Relaterte emner:
Utvikler Digital Transformation CXO Internet of Things Innovation Enterprise Software