Google undersöker AI mystiska polytope

0
127

Några fler ledtrådar är att läcka ut om den beskrivning som för två veckor sedan av Googles AlphaStar machine learning system som tävlar i tv-spelet StarCraft.

En viktig faktor kan vara den mystiska “polytope.”

Vad är en polytope? En Euklidisk geometrisk figur i N dimensioner, av vilka två-dimensionell polygoner och tre-dimensionell polyhedra är den välbekanta exempel. Den polytope fram som ett sätt att tänka om landskapet av möjliga lösningar på ett spel som StarCraft.

Också: Rättvisa i AI, StarCraft Edition

Det finns inga papper ännu för AlphaStar, men efter Googles blogginlägg om programmet på Jan. 24, ledtrådar började växa fram.

Som nämnts i ett separat inlägg förra veckan, AlphaStar bygger på Google ‘ s DeepMind gruppen, särskilt forskaren David Balduzzi och kollegor, om något som kallas “Nash i genomsnitt”, där flera dator agenter som spelar spelet mot en annan är undersökta av neurala nätverk över flera spel. Som undersökningen visar olika egenskaper som kan kombineras för att skapa en sorts ideal spelare som byggts från styrkor av olika aktörer i de flera spel. Utforskandet av spelare, vad som avses med Balduzzi och kollegor som “gamescape,” uttrycks som en polytope.

google-2019-value-iteration-in-the-polytope.png

Hur politik av en AI-agent navigera genom “polytope” av funktioner värde i reinforcement learning. De blå prickarna är ett steg i riktning politiken tar på sin väg till den “optimala” värde funktion i rött som vinner spelet.

Google Hjärnan

Nu har Google forskare har erbjudit upp en annan granskning av de polytope, i en två tidningarna publiceras samtidigt i slutet av förra veckan, en byggnad på nästa.

Också: Googles AI surfar “gamescape” att erövra spelteori

Det första papperet, Värde Funktion Polytope i Inlärning, är skriven av Google Hjärnans Robert Dadashi, Adrien Ali Taïga, Nicolas Le Roux, Dale Schuurmans, och Marc G. Bellemare, med Taïga också tjänstgör på Montreal MILA organisation för lärande, och Schuurmans har en tid vid University of Alberta. Uppsatsen är upplagd på arXiv pre-print-server.

Här är hur polytope fungerar i Dadashi & Co.’s studie. Inlärning uppgifter som AlpaStar ofta förlita sig på design och vad framtiden kommer belöningen att vara från att vidta en viss åtgärd för en viss situation i spelet. Att statliga åtgärder bedömning är känd som värdet funktion. Att hitta rätt funktion kan vara vad som gör att agenten vinna spelet.

Dadashi visar i tidningen att alla funktioner värde som kan resultera från en rad olika strategier som en agent kan använda formuläret för en polytope. Det är viktigt eftersom då kan man se hur olika politik “flytta” genom polytope, tills att de landar på en “optimala” värde funktion som vinner spelet. Det optimala värdet funktion är beläget i ett visst hörn av polytope, så att vinna ett spel i en mening blir en fråga för att navigera polytope till höger hur du kan gå genom ett rum som letar efter något dolt i ett hörn.

Det är lätt att se hur detta arbete skulle kunna informera Balduzzi & Co.’s Nash genomsnitt: navigering polytope för värde funktioner kan ersättas genom att navigera polytope perfekt för spelare av StarCraft.

google-2019-polytopes-of-markov-decision-process.png

Flera Dataplattformar, eller “Markov beslutsprocessen,” typisk sökning strategi för att lösa en förstärkning lärande scenario, producera flera polytoper.

Google Hjärnan/Google DeepMind

Den andra Google uppsats tar polytope av värdet funktioner och använder det för att nå något som kan vara mer djupgående: problemet är att “utfästelser.”

Också: Google: s StarCraft II seger visar AI förbättrar via mångfald, uppfinning, inte reflexer

Ett centralt tema i AI från början är om en maskin kan “representera” sin värld. Det är en sak för ett lärande system för att lösa ett problem, det är en annan sak för att det ska vara “intelligens” i vad den gör. Möjligheten av ett neuralt nätverk för att inte bara göra uppgifter, men att skildra aspekter av världen omkring oss på ett sätt som leder till avancerade abstraktioner om världen, är det i teorin skiljer AI från en ren mekanisk system.

I den andra papper, Ett Geometriskt Perspektiv på Optimal Representationer för Inlärning, Dadashi och de andra författarna får sällskap av en annan Google-hjärnforskare, Pablo Samuel Castro, och två forskare från DeepMind, Kommer Dabney och Tor Lattimore, och Oxford U. s Clare Lyle.

Den här gången, Dadashi och kollegor säger att värdet funktioner som finns i hörnen av att polytope är “kontradiktoriska funktioner värde”, vilket bara innebär att de är de som kommer att leda till en deterministisk rad åtgärder för att vinna spelet. Att hitta den kontradiktoriska funktioner värde kräver att man gör en representation som “en god approximation av” ett visst värde funktion. En representation i detta fall är en kombination av en “funktion vektor,” en vektor som representerar en viss stat i spelet, och en vikt vektor som är justerbar via bekanta back-propagation teknik. Att få närmare till hörnet där det värde som funktionen innebär att man går igenom polytope på ett sätt som minimerar felet priser mellan tillnärmning och den kontradiktoriska värde funktion.

Också: Google funderar brister av maskininlärning

Detta har två viktiga resultat. Ett, det gör inlärning starkare genom att sätta upp flera “övriga uppgifter” som direkt ombud under loppet av spelet, snarare än en enda stor belöning funktion på slutet.

Och viktigare, för att lösa dessa uppgifter gör representation bättre och bättre. Som författarna uttrycker det, “en agent som förutspår AVFs, själva eller tillsammans med vissa primära målet, bör utveckla ett bättre tillstånd representation.”

google-2019-the-represenations-of-ai.png

Representation av fyra rum problemet. Den sista, på höger sida, skapad med hjälp av “kontradiktoriska funktioner värde,” visar “vacker struktur” i förhållande till de andra, säger Google: s forskare.

Google Hjärnan/Google DeepMind

Författarna testade att utföra sitt arbete på ett gemensamt AI uppgift, de “fyra rum domän”, där en agent har att navigera från ett rum i ett tvådimensionellt rutnät världen, flytta runt väggarna och går in och ut ur entréer, tills den kommer till ett hörn utsetts till seger. De jämför hur representationer som finns med den kontradiktoriska värde funktion jämföra representationer som uppfanns på måfå. Författarna skriver att de slumpmässigt valda representationer “fånga den allmänna avståndet till målet, men inte mycket mer.” I motsats, “representation av AVF [kontradiktoriska värde function] … uppvisar vacker struktur”, inklusive att visa saker som “focal points” och en “bias mot målet-rummet.”

Måste läsa

‘AI är mycket, mycket dumt”, säger Googles AI ledare (CNET)Hur man får alla Google Assistant nya röster just nu (CNET)Enhetlig Google AI division en tydlig signal om att AI: s framtid (TechRepublic)Topp 5: Saker att veta om AI (TechRepublic)

“Allt i allt, våra resultat visar att AVF metod kan lära sig förvånansvärt rik representationer,” skriver de.

Inget av detta omedelbart avser att AlphaStar, naturligtvis. Men det tyder på en ny, högre nivå av abstraktion i sökandet efter en politik för att lösa ett spel genom att först funderade om hur datorn representerar vad alternativen är.

Förvänta dig därför att se polytope dyker upp mer och mer i forskning från Google och andra. Det kan vara mystisk i vissa sinnen, men det verkar fungera i praktiken, åtminstone på vissa uppgifter, och att det öppnar en ny väg för att förstå representationer. Det är också vidgar debatten över vad dessa representationer betyder så långt som faktisk intelligens.

Tidigare och relaterade täckning:

Vad är AI? Allt du behöver veta

En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.

Vad är djupt lärande? Allt du behöver veta

Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.

Vad är lärande? Allt du behöver veta

Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.

Vad är cloud computing? Allt du behöver veta om

En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.

Relaterade artiklar:

Googles AI surfar “gamescape” att erövra spelteori
Detta är vad AI ser ut (som skissat av AI)
Googles DeepMind lag med ledande 3D-spel dev plattform
DeepMind AI fläckar tidiga tecken på ögonsjukdom

Relaterade Ämnen:

Google

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem