Slaget om AI-Agenter: Atari Kontra MMORPG

0
110

Hur AI utvecklas för att läsa känslor
Rana el Kaliouby, VD och medgrundare av Affectiva, berättar Tonya Hall hur AI utvecklas för att mäta en individs mentala hälsa.

Hur kan vi veta dansaren från dansen?

En annan version av poeten Yeats berömda frågan i samband med artificiell intelligens, kan vara: Är du analysera spelet eller är du analysera spelare?

Nya forskningsrapporter ut måndag utforska nya aspekter av inlärning, AI-system som “agenter”, datorn konkurrenter i spel, lära sig att vinna i mål-driven scenarier.

Båda studierna är att lära sig något om intelligens men också något om den miljö av spel som formar intelligens, och hur de två är sammanflätade.

Praktikanter Joseph Suarez, Yilun Du, Phillip Isola, och Igor Mordatch på den icke-vinstdrivande OpenAI stiftelsen har tagit fram en “öppen värld” video spel där agenter försöker hålla sig vid liv genom att kämpa för knappa resurser. Deras system återspeglar tron att en komplex online-spel är närmast den “verkliga världen” i termer av att producera komplexa beteenden i populationer.

openai-neuro-mmo-game-grid.png

OpenAI “Neurala MMO” spelet nätet.

OpenAI

Också: Google: s StarCraft II seger visar AI förbättrar via mångfald, uppfinning, inte reflexer

Och maskininlärning forskare Łukasz Kaiser och kollegor på Googles Hjärnan enhet utvecklat ett snabbare sätt att träna agenter för att behärska grunderna i klassisk 1980-talet Atari arcade-spel som Pong, Freeway, och stridszonen. Deras intuition är att genom att skapa en modell av spel, en dator kan förutsäga några av grunderna i spel på ett sätt som människor klarar av att förutsäga spelet fysik inom några minuter.

Den tidigare metoden priser komplexitet, som går bortom enkel leksak utmaningar, medan den senare arbetar värden effektiviteten av insikt.

I båda fallen är de val som är fast beslutna att en del av de spel som de inte har valt, så att föreställningar om AI är formade genom val av utmaning.

Den OpenAI forskning, Neurala MMO: ETT Massivt Multiagent Spel Miljö för Utbildning och Utvärdering av Intelligenta Agenter, inlagd på arXiv pre-print-server, och erbjuder en virtuell värld som består av ett rutnät av plattor som har resurser i dem såsom vatten att dricka och vegetation för att plocka.

Agenter flytta genom den virtuella världen, slåss varandra för att få den dyrbara resurser för att överleva. Det är ett bekant scenario som går tillbaka till tidiga projekt såsom “konstgjort liv” simuleringar av David Ackley och Michael Littman av Bellcore 1991.

Att studera var i början av inlärning ansökan till konstgjorda världar. Den OpenAI studie går mycket längre, testa så många som 100 miljoner agent “livstid”, som äger 100 GPU-kärnor en vecka att beräkna.

Också: Googles AI surfar “gamescape” att erövra spelteori

Författarna betonar att de ville skapa något som “massively multiplayer online role-playing games” eller MMORPG, eftersom, som de ser det, “bara MMOs kontextualisera [kurs] inom de bestående sociala och ekonomiska strukturer som närmar sig omfattningen av den verkliga världen.” Det handlar om skala, med andra ord.

De hittar några snygga saker, till exempel att fighters i denna värld gör bättre än agronomer, eftersom “alla populationer tränade med bekämpa handily överträffa alla populationer tränade med bara föda.” På ett bredare plan, fler aktörer att spela på en gång i spelet, desto mer att varje enskild agent utforskar nya delar av spelet nätet, söker resurser med mindre konkurrens.

De fann också agenter börjar utveckla individuella färdigheter, “nischer” som författarna uttrycker det, alltså mångfald går upp med större och större antal agenter. “Närvaro av andra populationer kraft agenter för att upptäcka en enda fördelaktiga skicklighet eller trick,” skriver de.

Detta är lite som påminner om några av resultaten av Googles DeepMind enhet som de utvecklat “AlphaStar” system för att spela på den MMORPG StarCraft, där utvecklingen av nischade kunskaper noterades. I själva verket författarna konstaterar ett samband mellan deras arbete och tidigare arbete av DeepMind lag om provtagning olika populationer för överlägsenhet.

Kanske den mest intressanta delen av denna uppsats, dock är det själv-reflekterande avsnitt mot slutet. Författarna erkänner MMORPG kan inte vara den enda typ av simulering som kan modellera verkliga lärande. Men de insisterar att det är den som har visat sig fungera i termer av positiv utveckling.

“Medan vissa kan se våra ansträngningar som cherrypicking miljö design,” skriver de, “vi tror att det är just det objektiva: det primära målet utvecklingen av spelet är att skapa komplex och engagerande spela på den nivå av mänsklig intelligens.

Även Intels neuro guru slår djupt lärande: “det är faktiskt inte lärande”

“Den spelare som bas använder sedan dessa beslut design för att skapa strategier långt bortom fantasin hos utvecklarna.”

(Ett blogginlägg av OpenAI har en fin blogg inlägg på den forskning samt med videoklipp av spelet.)

google-simple-neural-network.png

Google ‘ s “Enkla” neurala nätverk för att skapa modell världen simuleringar av Atari-spel och träning reinforcement learning.

Google Brian

Google research paper, Modell Baserad Inlärning för Atari, även inlagd på arXiv, använder en kombination av convolutional neurala nätverk, lång-och kortsiktiga minne, och full-ansluten neurala nätverk för att skapa en simulering av Atari-spel som förutsäger framtida ramar efter varje fyra ramar.

Medan andra forskare har använt neurala nätverk för att förutsäga ramar inom video, som författarna skriver, ingen av att arbeta någonsin lett till sätt att spela spelet till konkurrenskraftiga.

I detta projekt, Google-teamet kunde slå riktmärke “Rainbow” neurala nätverk som utvecklats av Google ‘ s DeepMind enhet i 2017, och även OpenAI “PPO” strategi 2017, som båda representerar state of the art i reinforcement learning.

Tricket i fall av Kaiser och team-mates var inte att träna neurala nätverk på bilder av spel från “replay bufferten,” mening, en verklig spel historia, men i stället för att bygga en inbillad “världen” som bygger på dessa frame-by-frame förutsägelser för spel.

Denna “modell-baserat” tillvägagångssätt, skriver författarna, “är mer prov-effektiv än en trimmad Rainbow baslinjen på nästan alla spel, kräver mindre än hälften av proverna på mer än hälften av spel, och på Motorvägen är mer än 10x fler exempel på effektiva.” Specifikt, de bästa poängen, när det neurala nätverket testades på en riktig match, var bättre på nästan varje spel av totalt 26 Atari-spel, när utbildningen var begränsad till bara 100,000 “tid steg” i spelet, om två timmar av spelet, författarna uppskattning.

Författarna, agent är att lära sig att dessa Atari-spel har något förutsägbar fysik, som den simulerade världen är att fånga och som den äldre neurala nätverk inte fånga.

Måste läsa

‘AI är mycket, mycket dumt”, säger Googles AI ledare (CNET)Hur man får alla Google Assistant nya röster just nu (CNET)Enhetlig Google AI division en tydlig signal om att AI: s framtid (TechRepublic)Topp 5: Saker att veta om AI (TechRepublic)

Som de uttryckte det, det är lite hur människor snabbt räkna ut grunderna och bemästra sådana tv-spel på några minuter. “Mänskliga spelare kan lära sig att spela Atari-spel på några minuter. Människor har en intuitiv förståelse av de fysikaliska processer som finns representerade i spelet: vi vet att flygplan kan flyga, bollar kan rulla, och kulor kan förstöra utlänningar.” (Papperet har också en fin blogg inlägg.)

Båda tidningarna erbjuder spännande möjligheter som författarna fortsätter att utforska den värld de har skapat, i fråga om OpenAI, eller simulerad, i fallet med Google. Den OpenAI team konstaterar att framtida forskning bör återspegla stilar av strid för varje agent som är beroende av hur en annan agent som kämpar. “Vi tror att de lärt sig att rikta inställning är sannolikt användbara för att undersöka effekter av samtidig inlärning i stora populationer.”

Och i fallet Google-gruppen, har de ännu inte kunnat vända så fort tidig inlärning av spel i spelet som är konkurrenskraftiga över långa sträckor för att spela. De hypotes att deras simulerade modeller av världen har mer information att ge om spelet som kommer att förbättra framtida resultat.

Tidigare och relaterade täckning:

Vad är AI? Allt du behöver veta

En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.

Vad är djupt lärande? Allt du behöver veta

Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.

Vad är lärande? Allt du behöver veta

Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.

Vad är cloud computing? Allt du behöver veta om

En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.

Relaterade artiklar:

Googles AI surfar “gamescape” att erövra spelteori
Detta är vad AI ser ut (som skissat av AI)
Googles DeepMind lag med ledande 3D-spel dev plattform
DeepMind AI fläckar tidiga tecken på ögonsjukdom

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem