Google DeepMind gamifies geheugen met de nieuwste AI werk

0
16

Tiernan Ray

Door Tiernan Ray

| December 2, 2019 — 22:10 GMT (22:10 GMT)

| Onderwerp: Kunstmatige Intelligentie

deepmind-rl-memory-tasks-nov-2019.png

De DeepMind gebruik van gesimuleerde omgevingen te testen hoe een “reinforcement learning” is in staat om taken te ontvangen beloningen.

DeepMind

Je weet wanneer je iets verkeerd hebt gedaan, zoals het ophangen van een glas te dicht bij de rand van de tafel, alleen per ongeluk knock off van de tabel een moment later. Na verloop van tijd, besef je dat het fout is, zelfs voordat het noodlot toeslaat.

Ook weet je na jaren als je de verkeerde keuze, zoals het kiezen voor een manager bij Best Buy in plaats van een pro-bal-speler, de laatste zou je dus veel meer vervuld.

Die tweede probleem, hoe een gevoel van gevolg ontwikkelt zich over lange afstanden is het onderwerp van de recente werkzaamheden van Google ‘ s DeepMind eenheid. Ze vroeg hoe ze iets maken in de software, dat is wat mensen doen wanneer ze erachter te komen van de lange-termijn gevolgen van hun keuzes.

DeepMind de oplossing is een diep leren programma noemen ze “de Stoffelijke Waarde Vervoer.” TVT, voor steno, is een manier om het terug te sturen lessen voor de toekomst, als je wil, naar het verleden, naar de hoogte van acties. Op een manier, het is “gamifying” acties en de gevolgen daarvan, waaruit blijkt dat er kan een manier zijn om maatregelen op het ene moment gehoorzamen aan de waarschijnlijkheid van latere ontwikkelingen om punten te scoren.

Ze zijn het niet maken van het geheugen, per se, en niet opnieuw maken van wat er gebeurt in de geest. In plaats van, zoals zij het uitdrukte, “ze bieden een mechanistische account van gedragingen die kunnen inspireren modellen in de neurowetenschappen, psychologie en de gedragseconomie.”

deepmind-reconstructive-memory-agent-nov-2019.png

De “Reconstructieve Geheugen Agent” maakt gebruik van meerdere doelstellingen te “leren” voor het opslaan en ophalen van een record van de afgelopen staten van zaken als een soort geheugen.

DeepMind

De auteurs van de paper ‘Optimaliseren van agent gedrag over lange tijdschalen door het transport van waarde”, die werd gepubliceerd 19 November in de Natuur Tijdschrift Nature Communications opdruk, zijn Chia-Chun Hing, Timothy Lillicrap, Josh Abramson, Yan Wu, Mehdi Mirza, Federico Carnevale, Arun Ahuja, en Greg Wayne, allen met Google ‘ s DeepMind eenheid.

Het uitgangspunt van het spel is iets genaamd “long-term credit opdracht:” wat is het vermogen van mensen om erachter te komen wat het nut van een actie die ze nu nemen gebaseerd op wat de gevolgen van die handeling in de toekomst het Best-Buy-manager-versus-atleet voorbeeld. Dit heeft een rijke traditie in vele velden. Econoom Paul Samuelson onderzocht het fenomeen van hoe mensen beslissingen met gevolgen op lange termijn, wat hij noemde de “discounted utility” – aanpak, te beginnen in de jaren 1930. En Allen Newell en Marvin Minsky, de twee grootheden van de eerste golf van AI, zowel verkend.

Natuurlijk, AI programma ‘ s hebben een vorm van actie te nemen die is gebaseerd op de acties en gevolgen, de zogenaamde “reinforcement learning,” maar het heeft sever beperkingen, in het bijzonder, het feit dat het niet kan maken correlaties over lange tijdschalen de manier waarop het lijkt de mensen aan het doen zijn met krediet op lange termijn opdracht.

“Mensen en dieren bewijs gedragingen die state-of-the-art (model-free) diep RL nog niet goed kunnen simuleren behaviorally,” schrijven Opgehangen en collega ‘ s. In het bijzonder, “veel gedrag en het leren plaatsvindt in de afwezigheid van directe beloning of directe feedback” in de mens, wordt het weergegeven.

deepmind-tvt-learns-better-nov-2019.png

DeepMind ‘ s versie van reinforcement learning die gebruik maakt van “stoffelijke waarde transport” voor het verzenden van een signaal van beloning achteruit, om vorm te geven acties, doet het beter dan alternatieve vormen van neurale netwerken. Hier ziet u de “TVT” het programma is vergeleken met de “Lange-korte-termijn geheugen,” of LSTM, neurale netwerken, met en zonder geheugen, en een basic reconstructieve geheugen agent.

DeepMind

DeepMind de wetenschappers hebben uitgebreid gebruik van reinforcement learning voor hun enorme AI projecten zoals de AlphaStar programma dat is kerven tot overwinningen in Starcraft II, en de AlphaZero programma voordat het die zegevierde op go en schaken en shoji. De auteurs van het nieuwe werk aan te passen RL zodat signalen van ver in de toekomst, de betekenis, de verschillende stappen in tijd vooruit in een opeenvolging van handelingen. Het maakt gebruik die signalen om vorm te geven acties aan het begin van de trechter, een soort van feedback loop.

Ook: Google StarCraft II overwinning toont AI verbetert via diversiteit, uitvinding, geen reflexen

Ze maakten er een spel van, met andere woorden. Ze nemen gesimuleerde werelden, kaarten van de kamers zoals je ziet in de video games zoals Quake en Doom, de aard van de gesimuleerde omgeving die bekend is in de opleiding van kunstmatige stoffen. De agent interactie met de omgeving, bijvoorbeeld tegenkomen gekleurde vierkantjes. Vele reeksen later, de agent zal worden beloond als het kan ook zijn weg vinden naar dat zelfde plein met een record van de eerdere verkenning die fungeert als geheugen.

Hoe deden ze het is een fascinerende creatie van iets gemaakt op DeepMind in 2014 door Alex Graven en collega ‘ s genaamd de “neurale Turing machine.” De NMT is een manier om een computer te zoeken geheugen registreert die niet gebaseerd is op expliciete instructies maar alleen op grond van een gradiënt afdaling in een diepe learning network — in andere woorden, het leren van de functie voor het opslaan en ophalen van specifieke gegevens.

De auteurs, Opgehangen en collega ‘ s, neem nu de aanpak van de NMT en, in zekere zin, bolt het op normale RL. RL in dingen zoals AlphaZero zoekt een ruimte van mogelijke beloningen te “leren” via gradient descent een waarde functie, zoals dat heet, een maximale systeem van uitbetalingen. De waarde van de functie dan informeert de bouw van een beleid dat leidt de acties van de computer neemt tijdens de uitvoering door de lidstaten van het spel.

De auteurs toevoegen van een mogelijkheid voor de RL programma voor het ophalen van herinneringen, worden de records van de acties uit het verleden, zoals de ontmoeting met de gekleurde vierkante eerder. Dit noemen ze de “Reconstructieve Geheugen Agent.” De RMA, zoals dat heet, maakt gebruik van NMT mogelijkheid tot het opslaan en ophalen van herinneringen door verloop afdaling. Overigens zijn ze een nieuwe weg inslaan hier. Terwijl andere benaderingen hebben geprobeerd het gebruik van het geheugen te helpen RL, dit is de eerste keer, schrijven ze, dat de zogenaamde herinneringen van gebeurtenissen in het verleden zijn “gecodeerd.” Ze doelt op de manier waarop de informatie wordt gecodeerd in een generatieve neurale netwerk, zoals een “afwijkende auto-encoder,” een gemeenschappelijke aanpak van diep leren die ten grondslag ligt aan de dingen, zoals de “GPT2” taal model dat OpenAI gebouwd.

Ook: Vrees niet diep fakes: OpenAI de machine schrijft zo zinloos als een chatbot spreekt

“In plaats van teeltmateriaal verlopen om de vorm van het netwerk verklaringen, in de RMA we hebben gebruikt reconstructie doelstellingen om ervoor te zorgen dat relevante informatie wordt gecodeerd,” is hoe de auteurs beschrijven.

Het laatste stukje van de puzzel is dat wanneer een taak niet leiden tot toekomstige beloningen, de TVT neurale netwerk stuurt vervolgens een signaal naar de acties van het verleden, als je wil, bepaalt hoe deze acties zijn verbeterd. Op deze manier, de typische RL-waarde functie wordt getraind op de lange termijn de afhankelijkheid tussen de acties en hun toekomst utility.

zie ook

Artificial intelligence in the real world: What can it actually do?

Kunstmatige intelligentie in de echte wereld: Wat kan het eigenlijk doen?

Wat zijn de grenzen van de AI? En hoe ga je van het beheer van data punten voor het injecteren van AI in de onderneming?

Lees Meer

De resultaten tonen ze de beat-typische aanpak voor RL, die gebaseerd zijn op “lange-korte-termijn geheugen,” of LSTM netwerken. De betekenis, de DeepMind combo van RMA en TVT beats de LTSMs, zelfs die LSTMs die gebruik maken van het geheugen.

Het is belangrijk om te onthouden dit is allemaal een spel, en niet een model van het menselijk geheugen. In het spel, DeepMind de RL agent opereert in een systeem dat trotseert de fysica, waar de gebeurtenissen in de toekomst, die verdienen een beloning stuurt een signaal terug naar het verleden te verbeteren, of “bootstrap” de acties eerder. Het is alsof de “Toekomst” zou terug gaan naar de college-leeftijd zelf en zeggen, Neem deze route en een pro-bal speler, ik zal me later dankbaar zijn.”

Een aanpak, niet vermeld door de auteurs, die mogelijk maken dat relevant is voor het menselijke denken, zou worden om te laten zien hoe TVT is in een soort van overdracht leren. Betekenis, kan het leren dat gebeurt gebruikt worden in nieuwe, ongeziene taken van een totaal andere instelling.

De auteurs eindigen met te erkennen, dit is een model van een mechanisme, en niet noodzakelijkerwijs representatief voor de menselijke intelligentie.

“De volledige uitleg van hoe we het probleem oplossen en express coherent gedrag over lange tijdsperioden blijft een diepzinnig mysterie,” schrijven ze, “over ons werk alleen geeft inzicht.”

En toch geloven ze dat hun werk kunnen bijdragen aan de verkenning van de mechanismen die ond al: “We hopen dat een cognitieve mechanismen aanpak om inzicht te krijgen intertemporele keuze—waar keuze voorkeuren worden losgekoppeld van een stijve verdisconteren van de model—zal inspireren manieren naar voren.”

Verwante Onderwerpen:

Big Data Analytics

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software

Tiernan Ray

Door Tiernan Ray

| December 2, 2019 — 22:10 GMT (22:10 GMT)

| Onderwerp: Kunstmatige Intelligentie