De strijd van de AI Agents: Atari Versus MMORPG

0
110

Hoe AI evolueert om te lezen emoties
Rana el Kaliouby, CEO en mede-oprichter van Affectiva, vertelt Tonya Hall hoe AI is in ontwikkeling voor het meten van het individuele psychische gezondheid.

Hoe kunnen we weten dat de danser van de dans?

Een andere versie van de dichter Jaar de beroemde vraag, in het kader van kunstmatige intelligentie, zou kunnen zijn: Bent u het analyseren van het spel of je het analyseren van de speler?

Nieuwe onderzoeksrapporten uit maandag verkennen van nieuwe aspecten van reinforcement learning, de AI-systeem: “de agenten,” de computer concurrenten in spelletjes, leren om te winnen in de goal-driven scenario ‘ s.

Beide studies zijn in het leren van iets over intelligentie, maar ook iets over de omgeving van de games die vormen van intelligentie, en hoe de twee met elkaar verweven zijn.

Stagiaires Joseph Suarez, Yilun Du, Phillip Isola, en Igor Mordatch in de non-profit OpenAI stichting ontwikkelde een “open-world” video game waarin agenten proberen om in leven te blijven door te vechten voor de schaarse middelen. Hun systeem weerspiegelt de overtuiging dat complexe online games zijn het dichtst bij de “echte wereld” in termen van het produceren van complex gedrag in populaties.

openai-neuro-mmo-game-grid.png

OpenAI de “Neurale een MMO spel grid.

OpenAI

Ook: Google StarCraft II overwinning toont AI verbetert via diversiteit, uitvinding, geen reflexen

En machine learning wetenschappers Łukasz Kaiser en collega ‘s op Google’ s Hersenen apparaat ontwikkeld een snellere manier om medewerkers te trainen voor het beheersen van de basisprincipes van de klassieke jaren 1980 Atari arcade games zoals Pong, Freeway, en Battle Zone. Hun intuïtie is dat door het creëren van een model van de games, een computer kunt voorspellen dat een aantal van de basisprincipes van het spelen op manieren die de mens beheren om te voorspellen spel van de fysica binnen enkele minuten.

De voormalige aanpak prijzen complexiteit, die verder gaat dan eenvoudige speelgoed uitdagingen, terwijl de laatste waarden voor werk efficiëntie van inzicht.

In beide gevallen, de keuzes worden bepaald in een mate die door de games die ze hebben geselecteerd, zodat de opvattingen van AI, zijn gevormd door de keuze van de uitdaging.

De OpenAI onderzoek, Neurale MMO: EEN Massaal Multiagent Game-Omgeving voor de Opleiding en de Evaluatie van Intelligente Agenten, geplaatst op het arXiv pre-print server, biedt een virtuele wereld van een raster van tegels die middelen in, zoals water en vegetatie te plukken.

Agenten verplaatsen door de virtuele wereld, vechten met elkaar om de kostbare middelen om te overleven. Het is een bekend scenario gaat terug tot de vroege projecten zoals de “artificial life” simulaties van David Ackley en Michael Littman van Bellcore in 1991.

Die studie werd aan het begin van reinforcement learning toepassing van kunstmatige werelden. De OpenAI studie gaat veel verder, het testen van maar liefst 100 miljoen agent “levens” met 100 GPU cores een week te berekenen.

Ook: Google AI surft op het “gamescape” te veroveren spel theorie

De auteurs benadrukken dat ze wilde iets maken zoals de ‘ massively multiplayer online role-playing games,” of MMORPG, omdat, zoals zij het zien, “alleen Mmo’ s contextualiseren [het leerplan] binnen hardnekkige sociale en economische structuren, het naderen van de schaal van de echte wereld.” Het is allemaal over schaal, met andere woorden.

Ze vinden een aantal leuke dingen, zoals dat vechters in deze wereld beter doen dan landbouwondernemingen, aangezien “alle van de bevolking wordt getraind met de bestrijding van een gunstige beter dan alle van de bevolking wordt getraind met alleen foerageren.” Op een breder niveau, hoe meer agenten die tegelijk spelen in het spel, hoe meer dat elke individuele agent onderzoekt nieuwe gebieden van het spel grid, op zoek naar middelen met minder concurrentie.

Ze vonden ook de agenten beginnen met het ontwikkelen van individuele vaardigheden, “niches”, zoals de auteurs het ook, dus diversiteit gaat met grotere en grotere aantallen agenten. “De aanwezigheid van andere populaties kracht agenten bij het ontdekken van een enkele voordelig vaardigheid of truc,” schrijven ze.

Dit is een beetje doet denken aan een aantal van de bevindingen van Google ‘ s DeepMind eenheid als ze ontwikkelde de “AlphaStar” systeem om te spelen op het MMORPG StarCraft, waar de ontwikkeling van niche vaardigheden werd opgemerkt. In feite, de auteurs merken op een verband tussen hun werk en eerder werk van de DeepMind team op de bemonstering verschillende populaties voor superioriteit.

Misschien wel het meest interessante deel van dit artikel, echter, is de zelf-reflexieve passages in de richting van het einde. De auteurs erkennen de MMORPG is waarschijnlijk niet de enige soort simulatie kan model van de echte wereld leren. Maar ze benadrukken het is de een die heeft bewezen te werken in termen van het stimuleren van de ontwikkeling.

“Terwijl sommige kunnen zien van onze inspanningen als cherrypicking milieu-design”, schrijven ze, “wij geloven dat dit is precies de doelstelling: het primaire doel van game-ontwikkeling is voor het maken van complexe en boeiende spelen op het niveau van de menselijke intelligentie.

Ook: Intel neuro guru slams diep leren: ‘het is eigenlijk niet te leren’

“De speler basis gebruikt vervolgens deze ontwerp-besluiten tot het maken van strategieën die tot ver buiten de fantasie van de ontwikkelaars.”

(Een blog post door OpenAI heeft een mooie blog post over het onderzoek, met video ‘ s van de gameplay.)

google-simple-neural-network.png

Google ‘ s “Eenvoudige” neurale netwerk voor het maken van modellen wereld simulaties van Atari games en training van reinforcement learning.

Google Brian

De Google-research paper, Model Gebaseerd Reinforcement Learning voor Atari, ook geplaatst op arXiv, maakt gebruik van een combinatie van convolutional neurale netwerken, lange, korte-termijn geheugen, en full-aangesloten neurale netwerken te maken van een simulatie van de Atari spel dat voorspelt de toekomst frames na elke vier frames.

Terwijl andere onderzoekers hebben gebruikt neurale netwerken te voorspellen beelden in de video, de auteurs schrijven, niets van dat werk ooit geleid tot manieren om het spel te spelen recreatief.

In dit project, het Google-team was in staat om te verslaan van de benchmark “Regenboog” neuraal netwerk is ontwikkeld door Google DeepMind eenheid in 2017, en ook OpenAI “PPO” aanpak in 2017, beide vertegenwoordigen de state of the art in reinforcement learning.

De truc in het geval van Kaiser en team-mates was niet om te trainen het neurale netwerk op beelden van de game van de “replay buffer,” wat betekent dat, een echte game geschiedenis, maar in plaats daarvan het bouwen van een ingebeeld “wereld” op basis van die frame-by-frame voorspellingen van het spel.

Dit “model-based” benadering, de auteurs schrijven, “is meer voorbeeld-efficiënter dan een getuned Regenboog nulmeting op bijna alle spellen, vereist minder dan de helft van de monsters op meer dan de helft van de games, en op de Snelweg is meer dan 10x meer voorbeeld-efficiënt.” Specifiek, de beste scores, zodra het neurale netwerk is getest op een echte wedstrijd, waren beter op bijna elk spel van de in totaal 26 Atari games, tijdens de training was beperkt tot slechts 100.000 van “steps” in het spel, op ongeveer twee uren van het spel, de auteurs schatten.

De auteurs, de agent is leren dat deze Atari games zijn enigszins voorspelbaar fysica, die de gesimuleerde wereld is het vastleggen en waarin de oudere neurale netwerken niet vastleggen.

Moet lezen

‘AI is heel, heel stom,’ zegt Google AI leider (CNET)Hoe krijg je al die Google Assistent van de nieuwe stemmen nu (CNET)Unified Google AI afdeling een duidelijk signaal van AI ‘ s toekomst (TechRepublic)Top 5: Dingen om te weten over AI (TechRepublic)

Als ze het, het is een beetje hoe de mens het snel achterhalen van de principes en de master dergelijke video games in minuten. “Menselijke spelers kunt leren spelen Atari games in minuten. De mens bezit een intuïtief begrip van de fysische processen die vertegenwoordigd zijn in het spel: we weten dat vliegtuigen kunnen vliegen, ballen kunnen rollen, en kogels kan vernietigen buitenaardse wezens.” (Het papier heeft ook een leuke blog post.)

Beide kranten intrigerende mogelijkheden als de auteurs zetten de wereld te ontdekken die ze hebben gemaakt, in het geval van OpenAI, of gesimuleerde, in het geval van Google. De OpenAI team merkt op dat toekomstig onderzoek moet een weerspiegeling zijn van stijlen van vechten voor elke agent die afhankelijk zijn van hoe een andere agent aan het vechten is. “Wij geloven dat de geleerden het instellen van targeting is waarschijnlijk nuttig voor het onderzoeken van de effecten van gelijktijdige leren in grote populaties.”

En in het geval van de Google group, ze zijn nog niet in staat geweest om dat snel en vroeg het leren van de games in spel spelen dat concurrerend is over lange stukken te spelen. Zij veronderstellen dat hun gesimuleerde modellen van de wereld hebben meer informatie te geven over het spel dat zal in de toekomst de resultaten.

Vorige en aanverwante dekking:

Wat is AI? Alles wat je moet weten

Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.

Wat is diep leren? Alles wat je moet weten

De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.

Wat is machine learning? Alles wat je moet weten

In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.

Wat is cloud computing? Alles wat u moet weten over

Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.

Verwante artikelen:

Google AI surft op het “gamescape” te veroveren spel theorie
Dit is wat AI eruit ziet (zoals geschetst door AI)
Google DeepMind teams met toonaangevende 3D-game dev platform
DeepMind AI plekken vroege tekenen van de ziekte van het oog

Verwante Onderwerpen:

Big Data Analytics

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software