Google: s StarCraft II seger visar AI förbättrar via mångfald, uppfinning, inte reflexer

0
183

Hur bra maskiner gör mot människor i konkurrensutsatta situationer kan inte vara den typiska saker som du förväntar dig, som svarstid, utan snarare förmågan att maximera bra val genom lång erfarenhet.

Det är en av de hämtställen från Dec. 19 match-up i realtid strategi datorspelet StarCraft II mellan en dator, AlphaStar, som utvecklats av Google, mot en mänsklig mästare, Polen, Grzegorz Komincz, känd genom sitt gamer hantera MaNa.

Ett blogginlägg av AlphaStar team torsdag avslöjar några fascinerande insikter om hur att December triumph skapades. (Forskningsrapport som är på gång.)

AlphaStar kom tillbaka från många förluster i och med 2017 och hållet slå MaNa av fem spel till noll i December match. “Det första systemet för att slå en topp [mänskliga] pro”, som AlphaStar skapare twittrade på torsdag.

Också: Kinas AI-forskare undervisar ett neuralt nät för att utbilda sig

screenshot-width-1500.png

Screent fånga AlphaStar att spela mot de mänskliga Team Liquid.

(Bild: Google DeepMind/Blizzard Entertainment)

Den kritiska skillnaden kan vara en strategi för utbildning AlphaStar som anställd nya “meta-spelet” – teknik för att odla en mästare spelare.

Maskinen är inte snabbare än människor på att vidta åtgärder. I själva verket, dess genomsnittliga antal åtgärder i StarCraft II är 280 kronor per minut, “betydligt lägre än den professionella [mänskliga] spelare.”

Istället sin styrka verkar vara att komma upp med nya strategier eller ovanliga vändningar på befintliga strategier genom att samla ihop kunskap under många spel. Googles DeepMind laget en ny “meta-spelet” – metoden för att utbilda sina nätverk, bygga upp en klass för spelare under tusentals och tusentals samtidiga utbildning matcher, och sedan välja den optimala spelare från resultaten av varje.

Också: MIT låter AI “syntetisera” computer program till stöd för data forskare

StarCraft II är den senaste i StarCraft-serien från Santa Monica-baserade video game maker Activision-Blizzard, kräver spelare att martial arbetstagare som rör sig genom en två-dimensionell terräng, samla resurser, till exempel mineraler, bygga hus och samla arméer för att uppnå dominans mot andra spelare. Spelet först kom ut 1998 och har varit med i en turnering spel sedan dess.

Det har varit en grogrund för AI innovation, eftersom Google och andra att se i spelet flera faktorer som gör det mycket mer utmanande än andra tv-spel, och klassisk strategi spel som Schack eller Gå. Dessa inkluderar det faktum StarCraft har en “fog of war” – aspekten, i det att varje spelare, inklusive den AI som “agenter” som utvecklas, har begränsad information eftersom de inte kan se aspekter av den terräng där deras motståndare kan ha gjort framsteg.

I 2017, när Googles DeepMind enhet, och programerar på Blizzard publicerade sitt första arbete, de skrev att de kunde få sina algoritmer för att spela spelet “nära till expert mänskliga spela”, men att de inte ens kunde lära den att slå den inbyggda AI som levereras med StarCraft.

screen-capture-alphastar-thought-process-2019.jpg

En skärmdump av hur AlphaStar modell är att reflektera över de spel som delar av det neurala nät är att skjuta på ögonblick i tiden, strategier det överväger.

(Bild: Google DeepMind/Blizzard Entertainment)

Laget slickat sina sår och kom tillbaka med flera nyheter den här gången. Ett papper som kommer att publiceras inom kort, enligt DeepMind grundare och VD Demis Hassabis.

I sin kärna, AlphaStar, som 2017 version, som fortfarande bygger på ett djupt lärande som görs av vad som är känt som en återkommande neurala nätverk, eller RNNs som upprätthåller ett slags minne av tidigare ingångar, vilket ger dem möjlighet att bygga på kunskap förvärvat genom utbildning det neurala nätverket.

Författarna dock kompletteras med en typisk “lång-och kortsiktiga minne” eller LSTM, neurala nätverk med något som kallas en “transformator”, som utvecklats av Google ‘ s Ashish Vaswani och kollegor 2017. Det är möjligt att flytta en “läsa chef” över olika delar av ett neuralt nätverk för att hämta tidigare data selektivt. Det finns en hel massa nya saker som detta.

Men en av de mest provocerande sätt spelet plan som har förändrats är att införa en metod för att gallra ut de bästa spelarna, som kallas “Nash i genomsnitt,” som infördes förra året av David Balduzzi och kollegor på DeepMind. Författarna konstaterade att neurala nätverk har en hel del “redundans” som betyder, “olika aktörer, nätverk, algoritmer, miljöer och aktiviteter som gör i princip samma jobb.” På grund av att Nash genomsnitt kan typ av selektivt utesluta, eller “avlägsna”, uppsägningar för att avslöja underliggande fördelar av en viss AI “agent” som spelar ett tv-spel (eller har någon uppgift).

scii-blogpost-fig08-width-1500.png

En bild av Nash i genomsnitt process genom vilken den perfekta spelaren är konstruerad. “Den slutliga AlphaStar agent består av komponenter av Nash-distribution, med andra ord, den mest effektiva blandningen av strategier som har upptäckts.”

(Bild: Google DeepMind/Blizzard Entertainment)

Som Balduzzi och kollegor skrev i sin uppsats, “Nash utvärdering beräknar en fördelning på spelare (agenter, ombud och uppgifter) som automatiskt anpassar sig till redundanta data. Det ger således en invariant tillvägagångssätt för att mäta agent-agent och agent-miljö interaktioner.”

Nash i genomsnitt användes för att plocka ut det bästa av AlphaStar spelare under loppet av många spel. Som AlphaStar laget skriver, “En kontinuerlig league skapades, med agenter league – konkurrenterna – spela spel mot varandra […] Medan några nya konkurrenter genomföra en strategi som bara är en vidareutveckling av en tidigare strategi, andra upptäcker drastiskt nya strategier.”

Men det är inte bara val av en spelare som lyser, Nash processen är ett effektivt sätt att tillverka en enda spelare som förenar alla lärande och insikt i andra. Den slutliga AlphaStar agent består av komponenter av Nash-distribution, med andra ord, den mest effektiva blandningen av strategier som har upptäckts.”

Måste läsa

‘AI är mycket, mycket dumt”, säger Googles AI ledare (CNET)Baidu skapar Kunlun kisel för AIUnified Google AI division en tydlig signal om att AI: s framtid (TechRepublic)

Nyckeln är att utbildningen av alla dessa konkurrenter ger varje AI agent unika mål och syften, så att antalet möjliga lösningar för att spelet utforskas expanderar stadigt. Det är en form av överlevnad av den starkaste av video spel, med spelare som går upp mot människor som kommer i åtnjutande av snabba utvecklingen i månader av spel.

I ekon av vad som hände med Go, där DeepMind är AlphaGo kunde uppfinna helt nya strategier, champ MaNa är sagt, “jag var imponerad av att se AlphaStar dra av avancerade drag och olika strategier i nästan varje spel, med en mycket mänsklig stil av gameplay jag skulle inte ha väntat sig.”

Det ska bli intressant att se när tidningen kommer ut, om den, som Hassabis och kollegor lovar, detta mash up av olika maskininlärning tekniker ger utdelning i andra forskningsområden. Som de skriver i inlägget, “Vi tror att denna avancerade modell kommer att bidra med många andra utmaningar i machine learning forskning som innebär långsiktiga sekvens modellering och stor produktion utrymmen såsom översättning, språk modellering och visuella representationer.”

Tidigare och relaterade täckning:

Vad är AI? Allt du behöver veta

En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.

Vad är djupt lärande? Allt du behöver veta

Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.

Vad är lärande? Allt du behöver veta

Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.

Vad är cloud computing? Allt du behöver veta om

En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.

Relaterade Ämnen:

Google

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem