Google DeepMind gamifies hukommelse med sin seneste AI arbejde

0
14

Tiernan Ray

Ved Tiernan Ray

| December 2, 2019 — 22:10 GMT (22:10 GMT)

| Emne: Kunstig Intelligens

deepmind-rl-memory-tasks-nov-2019.png

Den DeepMind bruge simulerede miljøer for at teste, hvordan en “reinforcement learning” er i stand til at fuldføre opgaver for at modtage belønninger.

DeepMind

Du ved, hvornår du har gjort noget forkert, som at sætte et glas for tæt til kanten af tabellen, at kun ved et uheld til at slå det fra bordet et øjeblik senere. Over tid, vil du indse de fejl endnu, før katastrofen rammer.

Ligeledes, du ved, over år, når du har foretaget de forkerte valg, som vælger at blive en leder på Bedste Købe snarere end en pro-ball spiller, sidstnævnte som ville have gjort dem så meget mere opfyldt.

Det andet problem er, hvordan en følelse af konsekvens udvikler sig over lange strækninger, er omfattet af det seneste arbejde med Google ‘ s DeepMind enhed. De spurgte, hvordan de kan skabe noget i software, der er som, hvad folk gør, når de finder ud af de langsigtede konsekvenser af deres valg.

DeepMind ‘ s løsning er en dybt learning program de kalder “Tidsmæssige Værdi Transport.” TVT, for stenografi, er en måde at sende tilbage erfaringer fra fremtiden, hvis du vil, til fortiden, til at informere tiltag. På en sådan måde, at det er “gamifying” handlinger og konsekvens, der viser, at der kan være en måde at gøre handlinger i det ene øjeblik adlyde sandsynligheden for senere udvikling for at score point.

De er ikke at skabe hukommelse, per se, og ikke genskabe, hvad der sker i sindet. Snarere, som de udtrykte det, at “de tilbyder en mekanistisk hensyn til adfærd, der kan inspirere til modeller i neurovidenskab, psykologi, og behavioral economics.”

deepmind-reconstructive-memory-agent-nov-2019.png

Den “Rekonstruktive Hukommelse Agent” bruger flere mål at “lære” at gemme og hente en registrering af tidligere forhold som en form for hukommelse.

DeepMind

Forfatterne af papiret, “Optimering af agent adfærd over lang tid skalaer ved at transportere værdi”, som blev offentliggjort 19 November i Naturen Tidsskriftet Nature Communications aftryk, er Chia-Chun Hang, Timothy Lillicrap, Josh Abramson, Yan Wu, Mehdi Mirza, Federico Carnevale, Arun Ahuja, og Greg Wayne, alle med Google ‘ s DeepMind enhed.

Udgangspunktet for spillet er noget, der hedder “long-term credit opgave”, som er evnen af mennesker til at finde ud af nytten af en handling, de tager nu baseret på, hvad der kan blive konsekvensen af, at en indsats langt ud i fremtiden — Best-Buy-manager-versus-atlet eksempel. Dette har en rig tradition inden for mange områder. Økonom Paul Samuelson undersøgt fænomenet, hvordan mennesker træffer valg med langsigtede konsekvenser, hvad han kaldte “tilbagediskonterede nytte” – metode, der starter i 1930’erne. Og Allen Newell og Marvin Minsky’, to berømtheder i den første bølge af AI, både udforsket det.

Selvfølgelig, AI-programmer har en form for handling-tage, der er baseret på handlinger og konsekvenser, kaldet “reinforcement learning”, men det har sever begrænsninger, især den kendsgerning, at man ikke kan lave korrelationer over lange tidsskalaer den måde, det synes folk gør med langsigtede kredit opgave.

“Mennesker og dyr, beviser adfærd, som state-of-the-art (model-uden beregning) dybt RL endnu ikke simulere adfærdsmæssigt,” skriver Hang og kolleger. I særdeleshed, “meget adfærd og læring finder sted i fraværet af en umiddelbar belønning eller direkte feedback” i mennesker, og det vises.

deepmind-tvt-learns-better-nov-2019.png

DeepMind ‘ s version af forstærkning af læring, der bruger “tidsmæssige værdi transport” for at sende et signal fra en belønning tilbage, at udforme handlinger, er bedre end alternative former for neurale netværk. Her, “IKT” – programmet er i forhold til “Long-short-term memory,” eller LSTM, neurale netværk, med og uden hukommelse, og en grundlæggende rekonstruktive hukommelse agent.

DeepMind

DeepMind ‘ s forskere har gjort omfattende brug af forstærkning for at lære, for deres massive AI projekter som AlphaStar program, der er snuppede vinder på Starcraft II, og AlphaZero programmet, før det, der triumferede på go og skak og shoji. Forfatterne i det nye arbejde tilpasse RL, så at det tager signaler fra langt ude i fremtiden, hvilket betyder, at flere gang trin fremad i en sekvens af operationer. Det bruger disse signaler til at forme aktioner i begyndelsen af tragten, en slags feedback-loop.

Også: Google ‘ s StarCraft II sejr viser AI forbedrer via mangfoldighed, opfindsomhed, der ikke er reflekser

De har lavet et spil af det, med andre ord. De tager simulerede verdener, kort over værelser, som du kan se i video spil som Quake og Doom, den slags simuleret miljø, der er blevet fortrolig i uddannelse af kunstige stoffer. Agenten interagerer med miljøet for at, for eksempel, støder farvede firkanter. Mange sekvenser senere, den agent, vil blive belønnet, hvis den kan finde sin vej til det samme torv, ved hjælp af en registrering af den tidligere udforskning, der fungerer som hukommelse.

Hvordan de gjorde det, er en fascinerende tilpasning af noget skabt på DeepMind i 2014 af Alex Grave og kolleger såkaldte “neurale Turing maskine.” Den NMT var en måde at gøre en edb-søgning hukommelse registre, der ikke er baseret på eksplicitte instruktioner, men alene baseret på gradient descent i en dyb læring i netværk — med andre ord, at lære den funktion, som til at gemme og hente specifikke data.

De forfattere, der Hang og kolleger, nu tager tilgang af NMT og i en vis forstand, bolte det på normal RL. RL i ting som AlphaZero søger en plads af potentielle belønninger for at “lære” via gradient descent en værdi funktion, som det hedder, med en maksimal system af udbetalinger. Værdien funktion, så oplyser opførelsen af en politik, der styrer handlinger computeren tager, som det skrider frem gennem staterne i spillet.

Til, at forfatterne tilføje en evne til RL-program til at hente erindringer, dem, registreringer af tidligere handlinger, såsom at støde på den farvede firkant tidligere. Det de kalder “Rekonstruktive Hukommelse Agent.” RMA, som det hedder, gør brug af NMT evne til at gemme og hente erindringer med gradient descent. I øvrigt, de bryder ny jord her. Mens andre metoder har forsøgt at bruge hukommelse adgang til hjælp, RL, det er første gang, de skriver, at den såkaldte erindringer om tidligere begivenheder, der er “kodet.” De er med henvisning til den måde, hvorpå oplysninger, der er kodet i en generativ neurale netværk, såsom en “variationsregning auto-encoder,” en fælles tilgang for dyb læring, der ligger til grund for ting såsom “GPT2” sprog model, der OpenAI bygget.

Også: Frygt ikke dybt forfalskninger: OpenAI ‘ s maskine skriver så meningsløst som en chatbot taler

“I stedet for spredning af gradienter til at forme netværk af repræsentationer, i RMA-vi har brugt genopbygning mål at sikre, at de relevante oplysninger, der er kodet,” er, hvordan forfatterne beskriver det.

Den sidste brik i puslespillet er, at når en opgave ikke føre til fremtidige belønninger, den TVT neurale netværk, der sender et signal tilbage til handlinger i fortiden, hvis du vil, forme, hvordan disse handlinger er forbedret. På denne måde, det typisk RL værdi funktion bliver uddannet på den langsigtede afhængighed mellem handlinger og deres fremtidige nytte.

se også

Artificial intelligence in the real world: What can it actually do?

Kunstig intelligens i den virkelige verden: Hvad kan det egentlig gøre?

Hvad er grænserne for AI? Og hvordan kan du gå fra håndtering af data punkter til intravenøs AI i virksomheden?

Læs Mere

De resultater, de viser, slå typiske tilgange til RL, der er baseret på “long-short-term memory,” eller LSTM netværk. Betydning, DeepMind combo af RMA og TVT slår LTSMs, selv dem, LSTMs at gøre brug af hukommelse opbevaring.

Det er vigtigt at huske dette er et spil, og ikke en model af den menneskelige hukommelse. I det spil, DeepMind RL ‘ s agent, der opererer i et system, der trodser fysik, hvor begivenheder i fremtiden at tjene en belønning sende et signal tilbage til fortiden for at forbedre, eller “bootstrap” foranstaltninger, der er truffet tidligere. Det er som om “Du” kunne gå tilbage til din college-alder selv og sige, at Tage denne rute og blive en pro-ball spiller, jeg vil takke mig senere.”

En tilgang, der ikke fremgår af de forfattere, der måske kan gøre alt dette mere relevante for den menneskelige tanke, ville være at vise, hvordan TVT ikke i en eller anden form for overførsel af læring. Betydning, kan den læring, der sker bruges i nye, uforudsete opgaver af en helt anden indstilling.

Forfatterne ende med erkendelsen af, at dette er en model af en mekanisme, og ikke nødvendigvis repræsentativt for den menneskelige intelligens.

“Den fulde forklaring på, hvordan vi løse problemet og hurtig sammenhængende adfærd over lange tidsrum forbliver en dyb hemmelighed,” skriver de, “om, som vores arbejde kun giver indsigt.”

Og alligevel er de ikke mener, at deres arbejde kan bidrage til at udforske de mekanismer, der underly selv: “Vi håber, at en af kognitive mekanismer tilgang til at forstå intertemporale valg—valg, hvor præferencer er afkoblet fra en stiv diskontering model—vil inspirere til nye veje frem.”

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software

Tiernan Ray

Ved Tiernan Ray

| December 2, 2019 — 22:10 GMT (22:10 GMT)

| Emne: Kunstig Intelligens