Google onderzoekt AI ‘ s mysterieuze polytope

0
125

Wat meer aanwijzingen zijn lekt uit over de beschrijving van twee weken geleden van Google ‘ s AlphaStar machine learning systeem dat concurreert in de video spel StarCraft.

Een belangrijk element kan zijn van de mysterieuze “polytope.”

Wat is een polytope? Een Euclidische geometrische figuur van N dimensies, waarvan twee-dimensionale polygonen en drie-dimensionale veelvlakken zijn de bekende voorbeelden. De polytope is in opkomst als een manier om na te denken over het landschap van de mogelijke oplossingen in een spel zoals StarCraft.

Ook: Eerlijkheid in de AI, StarCraft Edition

Er is geen papier nog voor AlphaStar, maar volgende Google blog post over het programma op Jan. 24, aanwijzingen begon te ontstaan.

Zoals vermeld in een afzonderlijke post van vorige week, AlphaStar bouwt voort op het werk door Google DeepMind groep, specifiek onderzoeker David Balduzzi en collega ‘ s, over iets genaamd “Nash gemiddeld”, waar meerdere computer agenten die spelen het spel tegen elkaar zijn onderzocht door het neurale netwerk over meerdere games. Dat onderzoek vindt verschillende attributen die kunnen worden gecombineerd om tot een soort van ideale speler opgebouwd uit sterke punten van de verschillende agenten in de diverse games. De verkenning van de spelers, wat is bedoeld om door de Balduzzi en collega ‘ s als de “gamescape,” wordt uitgedrukt als een polytope.

google-2019-value-iteration-in-the-polytope.png

Hoe het beleid van een AI agent navigeren door de “polytope” van waarde-functies in reinforcement learning. De blauwe stippen zijn de bewegingen van het beleid neemt op zijn weg naar de “optimale” waarde functie in het rood, dat wint het spel.

Google Hersenen

Nu, Google onderzoekers hebben een ander onderzoek van de polytope, in een twee papers uitgebracht tegelijkertijd eind vorige week, een gebouw op het volgende.

Ook: Google AI surft op het “gamescape” te veroveren spel theorie

De eerste paper, De Waarde van de Functie Polytope in Reinforcement Learning, is geschreven door Google Hersenen Robert Dadashi, Adrien Ali Taïga, Nicolas Le Roux, Dale Schuurmans, en Marc G. Bellemare, met Taïga waar ook in Montreal MILA organisatie voor machine learning, en Schuurmans met een aanstelling aan de Universiteit van Alberta. Het papier is geplaatst op het arXiv pre-print server.

Hier is hoe het polytope werkt in Dadashi & Co.’s studie. Reinforcement learning taken zoals AlpaStar vaak een beroep op computing is wat de toekomstige beloning van het nemen van een bepaalde actie, voor een gegeven stand van zaken in het spel. Die toestand-actie assessment is bekend als de waarde van de functie. Het vinden van de juiste functie kan worden wat laat de agent win het spel.

Dadashi toont in de krant dat de waarde van functies die kunnen resulteren uit een set van verschillende beleidsmaatregelen die een agent kan u gebruik maken van het formulier een polytope. Dat is belangrijk, want dan kan men zien hoe verschillend beleid “bewegen” door de polytope, totdat ze het land op een “optimale” waarde functie die wint het spel. De optimale waarde van de functie ligt bij een bepaalde hoek van de polytope, dus het winnen van een spel in een zin wordt het een kwestie van het navigeren op de polytope naar de rechter hoek van de manier waarop je kan lopen door het een kamer op zoek naar iets dat verborgen in een hoek.

Het is gemakkelijk om te zien hoe dit werk kan informeren Balduzzi & Co.’s Nash gemiddeld: navigeren in de polytope voor waarde-functies vervangen zou kunnen worden door te navigeren de polytope ideaal voor spelers van StarCraft.

google-2019-polytopes-of-markov-decision-process.png

Meerdere Samenwerkingsverbanden, of “Markov Decision Process”, de typische zoeken strategie voor het oplossen van een reinforcement learning scenario, produceren meerdere polytopes.

Google Hersenen/Google DeepMind

De tweede Google-papier neemt de polytope van waarde functies en maakt gebruik van het peilen iets dat kan worden diepgaander: het probleem van de “verklaringen.”

Ook: Google StarCraft II overwinning toont AI verbetert via diversiteit, uitvinding, geen reflexen

Een belangrijk thema in AI vanaf het begin is de vraag of een machine kan “voorstellen” zijn wereld. Het is één ding om een machine learning systeem voor het oplossen van een probleem, het is een ander ding om er te zijn “intelligentie” in wat het doet. De mogelijkheid van een neuraal netwerk is niet alleen taken te verrichten, maar om aan te geven aspecten van de wereld om hem heen op een manier die leidt tot geavanceerde denkbeelden over de wereld, wat in theorie onderscheidt AI van louter mechanische systeem.

In de tweede paper, Een Geometrisch Perspectief op een Optimale Verklaringen voor Reinforcement Learning, Dadashi en de andere auteurs zijn verbonden door een ander Google Hersenen onderzoeker, Pablo Samuel Castro, en twee onderzoekers van DeepMind, Dabney en Tor Lattimore, en Oxford U. s Clare Lyle.

Deze keer, Dadashi en collega ‘ s zeggen dat de waarde van de functies die op de hoeken van die polytope zijn “hoor en wederhoor waarde functies’, dat betekent gewoon dat zij zijn degenen die zullen leiden tot een deterministische reeks van acties om het spel te winnen. Het vinden van hoor en wederhoor waarde functies vereist het maken van een voorstelling van zaken dat “benadert” een gegeven waarde van de functie. Een weergave in dit geval is een combinatie van een “feature vector,” een vector die een bepaalde staat in het spel, en een gewicht vector dat is verstelbaar door middel van de bekende back-propagation techniek. Dichter bij de hoek waar de waarde van de functie is het gaat om het verplaatsen door de polytope op een manier dat minimaliseert het foutenpercentage tussen de benadering en de tegenspraak waarde van de functie.

Ook: Google overdenkt de tekortkomingen van machine learning

Dit heeft twee belangrijke resultaten. Een, het maakt reinforcement learning sterker door het opzetten van meerdere ondersteunende werkzaamheden” die de agent tijdens de loop van het spel, in plaats van een enkele grote beloning functie aan het eind.

En belangrijker, het oplossen van deze taken maakt de voorstelling beter en beter. Zoals de auteurs het uitdrukte, “een agent die voorspelt AVFs, door zelf of samen met een aantal primaire doelstelling, moet de ontwikkeling van een betere staat vertegenwoordiging.”

google-2019-the-represenations-of-ai.png

De vertegenwoordiging van de vier-kamer probleem. De laatste, aan de rechterkant, die zijn gemaakt door het gebruik van “hoor en wederhoor waarde functies,” shows “mooie structuur” ten opzichte van de anderen, zeggen de Google-onderzoekers.

Google Hersenen/Google DeepMind

De auteurs getest op hun werk op een gemeenschappelijke AI taak, de “vier-kamer-domein” waar een agent heeft om te navigeren van de ene kamer in een twee-dimensionaal raster wereld, bewegen de muren en in-en uitgaan van de toegangswegen, totdat het aankomt op een hoek aangewezen als de overwinning. Ze vergelijken hoe de verklaringen gevonden met hoor en wederhoor waarde van de functie te vergelijken met verklaringen uitgevonden in willekeurige volgorde. De auteurs schrijven dat de willekeurig gekozen vertegenwoordigingen “het vastleggen van de algemene afstand tot het doel, maar weinig anders.” In tegenstelling, “de vertegenwoordiging door AVF [tegenspraak waarde functie] … vertoont mooie structuur,” met inbegrip van het tonen van dingen zoals “focal points” en een “bias in de richting van het doel-kamer.”

Moet lezen

‘AI is heel, heel stom,’ zegt Google AI leider (CNET)Hoe krijg je al die Google Assistent van de nieuwe stemmen nu (CNET)Unified Google AI afdeling een duidelijk signaal van AI ‘ s toekomst (TechRepublic)Top 5: Dingen om te weten over AI (TechRepublic)

“Al met al, tonen onze resultaten aan dat de AVF methode kunt leren verrassend rijke verklaringen,” schrijven ze.

Geen van deze direct betrekking heeft op AlphaStar, natuurlijk. Maar het suggereert een nieuw, hoger niveau van abstractie in het zoeken naar een beleid voor het oplossen van een spel door eerst hard nadenken over hoe de computer geeft aan wat de keuzes zijn.

Verwachten, daarom, om te zien de polytope opduiken meer en meer in het onderzoek van Google en anderen. Het kan zijn mysterieus, in sommige opzichten, maar het lijkt te werken in de praktijk, ten minste op een aantal taken, en het opent een nieuwe weg voor het begrijpen van verklaringen. Het breidt ook de discussie over wat deze verklaringen betekenen zo veel als de werkelijke intelligentie.

Vorige en aanverwante dekking:

Wat is AI? Alles wat je moet weten

Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.

Wat is diep leren? Alles wat je moet weten

De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.

Wat is machine learning? Alles wat je moet weten

In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.

Wat is cloud computing? Alles wat u moet weten over

Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.

Verwante artikelen:

Google AI surft op het “gamescape” te veroveren spel theorie
Dit is wat AI eruit ziet (zoals geschetst door AI)
Google DeepMind teams met toonaangevende 3D-game dev platform
DeepMind AI plekken vroege tekenen van de ziekte van het oog

Verwante Onderwerpen:

Google

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software