Google DeepMind gamifies minne med sin senaste AI arbete

0
295

Tiernan Ray

Genom Att Tiernan Ray

| 2 December 2019 — 22:10 GMT (22:10 GMT)

| Ämne: Artificiell Intelligens

deepmind-rl-memory-tasks-nov-2019.png

Den DeepMind använda simulerade miljöer för att testa hur ett “reinforcement learning” är i stånd att utföra uppgifter för att få belöningar.

DeepMind

Du vet när du har gjort något fel, som att sätta en glas för nära kanten av bordet, bara för att av misstag slå det bordet en stund senare. Över tid, du inser misstaget även innan katastrofen är ett faktum.

Likaså, du vet under år när du gjort fel val, som att välja att bli en chef på Best Buy snarare än en pro-spelare utan boll, den senare som skulle ha gjort så mycket mer uppfyllda.

Det andra problemet, hur en känsla av konsekvens utvecklas över långa sträckor, är ämnet för den senaste tidens arbete med Googles DeepMind enhet. De frågade hur de kan skapa något i programvara som är precis vad människor gör när de reda på de långsiktiga konsekvenserna av sina val.

DeepMind s lösning är ett djupt lärande program de kallar “Tidsmässiga Värde Transporter.” TVT, för shorthand, är ett sätt att skicka tillbaka lärdomar från framtiden, om du kommer till det förflutna, att informera åtgärder. På ett sätt, det är “gamifying” åtgärder och konsekvens, vilket visar att det kan vara ett sätt att göra åtgärder i ett ögonblick lyda sannolikheten för senare utveckling till poäng.

De är inte skapa minne, per se, och inte att återskapa vad som händer i sinnet. Snarare, som de uttryckte det, att de “erbjuder en mekanistisk hänsyn till beteenden som kan inspirera modeller i neurovetenskap, psykologi och behavioral economics.”

deepmind-reconstructive-memory-agent-nov-2019.png

Den “Rekonstruktiv Minne Agent” använder flera mål för att “lära sig” för att lagra och hämta en post från tidigare förhållanden som ett slags minne.

DeepMind

Författarna till uppsatsen, “Optimera agentens beteende över långa tidsskalor genom att transportera värde,” som publicerades den 19 November i Naturen, Tidskriften Nature Communications avtryck, är Chia-Chun Hängde, Timothy Lillicrap, Josh Abramson, Yan Wu, Mehdi Mirza, Federico Carnevale, Arun Ahuja, och Greg Wayne, alla med Googles DeepMind enhet.

Utgångspunkten för spelet är något som kallas “long-term credit uppdrag”, vilket är möjligheten för folk att ta reda på nyttan av en åtgärd de vidtar nu, baserat på vad som kan bli följderna av att åtgärder för långt in i framtiden — Best-Buy-manager-kontra-idrottsman exempel. Detta har en rik tradition inom många områden. Ekonomen Paul Samuelson utforskade fenomenet hur människor gör val med konsekvenser på lång sikt, vad han kallade den “rabatterade utility” – metoden, med början på 1930-talet. Och Allen Newell och Marvin Minsky, två förgrundsfigurer i den första vågen av AI, både utforskade den.

Naturligtvis, AI program har en form av action-tagande som är baserad på handlingar och konsekvenser, som kallas “inlärning”, men det har sever begränsningar, i synnerhet det faktum att den inte kan tjäna korrelationer över långa tidsskalor så det verkar människor gör med långfristiga krediter uppdrag.

“Människor och djur bevis beteenden som state-of-the-art (modell-gratis) djup RL ännu inte kan simulera beteendemässigt,” skriva Hängde och kollegor. I synnerhet “mycket beteende och inlärning sker i avsaknad av omedelbar belöning eller direkt feedback” på människor, den visas.

deepmind-tvt-learns-better-nov-2019.png

DeepMind version av inlärning som använder sig av “temporal värde transport” för att skicka en signal från belöna bakåt, för att forma åtgärder, inte bättre än alternativa former av neurala nätverk. Här, “IKT” är jämfört med “Lång-kort-sikt-minne” eller LSTM, neurala nätverk, med och utan minne, och en grundläggande rekonstruktiv minne agent.

DeepMind

DeepMind: s forskare har genomfört ett omfattande användning av inlärning för deras massiva AI-projekt som AlphaStar program som är stansning upp vinner på Starcraft II, och AlphaZero programmet innan det som segrade på att gå och schack och shoji. Författarna i det nya arbetet är att anpassa sig RL så att det tar signaler från långt i framtiden, mening, flera gången steg framåt i en sekvens av operationer. Det använder dessa signaler till formen åtgärder i början av tratten, en typ av feedback-loop.

Också: Google: s StarCraft II seger visar AI förbättrar via mångfald, uppfinning, inte reflexer

De har gjort ett spel av det, med andra ord. De tar simulerade världar, kartor av rum som du ser på tv-spel såsom Quake och Doom, den typ av simulerad miljö som har blivit bekant i utbildning av konstgjorda medel. Agenten interagerar med miljön, till exempel, möter färgade rutor. Många sekvenser senare, agenten kommer att belönas om det kan hitta sin väg till att samma torg med ett rekord av den tidigare forskning som fungerar som minne.

Hur de gjorde det är en fascinerande anpassning av något som är skapat på DeepMind 2014 av Alex Gravar och kollegor som kallas “neurala Turing-maskin.” NMT var ett sätt att göra en dator sök minne register som inte bygger på explicita instruktioner, men bygger helt enkelt på lutning nedför i en djup lärande nätverk — med andra ord, att lära funktion att lagra och hämta data som är specifika.

Författarna, Hängde och kollegor, ta nu den strategi för NMT och i en mening, bultar det på normal RL. RL i saker som AlphaZero söker ett utrymme för eventuella belöningar för att “lära sig” via lutning härkomst ett värde funktion, som det heter, en maximal system av utdelningen. Värdet funktion då informerar byggandet av en politik som styr agerande tar datorn eftersom det fortskrider genom staterna av spelet.

Att som författarna lägga till en möjlighet för RL-programmet att hämta minnen, de uppgifter om tidigare åtgärder såsom möter den färgade rutan tidigare. Det de kallar “Rekonstruktiv Minne Agent.” RMA, som det kallas, använder sig av NMT förmåga att lagra och hämta minnen av gradient härkomst. För övrigt, de bryter ny mark här. Medan andra metoder har försökt att använda ett memory access för att hjälpa RL, detta är första gången, skriver de, att den så kallade minnen av tidigare händelser är “kodade.” De är hänvisade till hur information som är kodad i en skapande neurala nätverk, som en “variational auto-kodare,” en gemensam strategi för djupt lärande som ligger till grund för saker som “GPT2” språk modell som OpenAI byggt.

Också: Frukta inte djupt förfalskningar: OpenAI maskinen skriver så meningslöst som en chatbot talar

“Istället för att propagera för olika grader för att forma nätverk representationer, i RMA vi har använt återuppbyggnad mål att se till att relevant information är kodad,” är hur författarna beskriver det.

Den sista biten i pusslet är att när en uppgift är att leda till framtida belöningar, TVT neurala nätverk skickar sedan en signal tillbaka till handlingar i det förflutna, om du kommer att forma hur dessa åtgärder är förbättrad. På detta sätt, den typiska RL värde funktion blir utbildade på lång sikt beroende mellan åtgärder och deras framtida nyttan.

se också

Artificial intelligence in the real world: What can it actually do?

Artificiell intelligens i den verkliga världen: Vad kan man göra egentligen?

Vad är gränserna för AI? Och hur går man från att hantera data punkter för att injicera AI i företaget?

Läs Mer

Resultaten, de visa, slå typiska metoder för RL som är baserade på “lång-kort-sikt-minne” eller LSTM nätverk. Mening, DeepMind combo av RMA och TVT slår LTSMs, även de LSTMs att göra användningen av minne för lagring.

Det är viktigt att komma ihåg att detta är allt ett spel, och inte en modell av det mänskliga minnet. I spelet, DeepMind s RL agent är i drift i ett system som trotsar fysik, där händelser i framtiden att tjäna en belöning skicka en signal tillbaka till det förflutna för att förbättra, eller “bootstrap” åtgärder som vidtagits tidigare. Det är som om “Framtiden” skulle kunna gå tillbaka till din college-ålder själv och säger, Ta den här vägen och bli en pro spelare utan boll, jag kommer tacka mig senare.”

En strategi, som inte anges med författare, som kan göra allt detta mer relevant för mänskligt tänkande, skulle vara att visa hur TVT inte i någon form av överföring lärande. Mening, kan det lärande som sker användas i nya, osynliga uppgifter av en helt annan inställning.

Författarna slutet av erkanna detta är en modell av ett system, och inte nödvändigtvis representativa för den mänskliga intelligensen.

“Fullständig förklaring av hur vi löser problem och snabb sammanhängande beteenden över långa tidsrymder, förblir ett djupt mysterium,” skriver de, “om vårt arbete endast ger insikt.”

Men de tror att deras arbete kan bidra till att utforska de mekanismer som underly men: “Vi hoppas att ett kognitiva mekanismer tillvägagångssätt för att förstå inter-temporal val—där valet preferenser är frikopplat från en stel diskontering modell—kommer att inspirera vägar framåt.”

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem

Tiernan Ray

Genom Att Tiernan Ray

| 2 December 2019 — 22:10 GMT (22:10 GMT)

| Ämne: Artificiell Intelligens