Mirakel av AI i sfären av att spela spel är inkapslade i AlphaGo Noll program, som i och med 2017 kunde slå alla mänskliga spelare av den gamla strategi spel strikt med vad som kallas “self-play,” att utforska olika möjliga drag utan någon som helst mänsklig tips. En reviderad version, AlphaZero, fått en sådan allmän kunskap att det nu kan utmärka sig på att inte bara Gå, men också schack och spelet Shogi, Japans version av schack.
Därför, neurala nät kan generalisera över många spel bara genom att själv spela.
Men inte alla spel, det visar sig. Det finns vissa spel som inte lånar sig till AlphaZero strategi, spel känt tekniskt som “intransitiva.”
För dessa spel, Googles DeepMind AI-forskare har räknat ut ett nytt trick, ett sätt att konstruera en typ av super idrottsman genom att söka en mångfald av rörelser och stilar av play. Det främsta exemplet, AlphaStar, som nyligen vann en match mot de bästa mänskliga spelare av strategispel StarCraft II, som ZDNet krönika förra veckan.
Också: Google: s StarCraft II seger visar AI förbättrar via mångfald, uppfinning, inte reflexer

Även ett relativt enkelt spel som stenar, papper, sax kan spelas som ett problem för att utöka den gamescape att hitta underliggande strategier genom olika metoder.
Google DeepMind
Medan forskningen papper för att arbeta är förestående, vi har lite av en teaser på ett papper fredag, “Open-ended Lärande i Symmetriska nollsummespel,” inlagd på arXiv pre-print server, författad av David Balduzzi och kollegor på DeepMind, vars tidigare arbete bidrog på ett viktigt sätt till StarCraft ansträngning.
De problem som de konfronteras med StarCraft II är att till skillnad från schack och Go, det är inte ett spel med perfekt information, som de säger, där alla motståndarens drag kan ses. Med perfekt information, ansträngning för att lösa ett spel som kokar ner till en sökning över möjliga åtgärder gett någon stat i spelet genom att jämföra rörelser av två spelare. En enda “värde funktion” av rätt drag vid rätt tillfällen kan formuleras bara genom att jämföra de två spelarna.
2015, när AlphaGo första spårat upp vinner mot andra Gå program, forskaren Chris J. Maddison ‘ och kollegor på Google används som ett av sina viktiga verktyg förmågan att tala om det neurala nätverket om rangordningen av de mänskliga spelare vars rörelser var grunden för utbildningen. Att som “en dynamisk bias till det nätverk som beror på rang.” Som signal hjälpte det neurala nätet spela för att spela bättre genom att “imitera” en bättre spelare av att Gå.
Också: Kinas AI-forskare undervisar ett neuralt nät för att utbilda sig
Med Starcraft II, en sådan enkel imitation inte fungerar. Det är inte fullständig information, som i Går, och så finns det saker som en motståndare gör som är osedda av övriga spelare. Som ett resultat, spel av dolda information är inte “transitiv” som med schack och Go, skriver Balduzzi och kollegor i den senaste rapporten. De gör inte koka ner till en jämförelse av vinnare och förlorare. I själva verket, “Det är inte nödvändigtvis en bästa agent,” skriver de, och med flera omgångar av strid i något spel, datorn kan vinna några rundor mot sig själv och förlorar andra, “samtidigt förbättra mot en motståndare och försämring mot en annan.”
För att lösa det problemet, författarna gick på jakt efter ett sätt att analysera “befolkning” av spelare. Deras lösning är något som kallas en “gamescape,” en utvinning av kunskap om strategi från rör sig genom olika typer av spelare.
Google DeepMind s forskare visar visuellt hur deras algoritm, som bygger på den så kallade Nash-jämvikt, fyller ut en “polytope” av strategier i spel. Den blå figuren på den vänstra sidan bäst “passar” polytope av lösningar jämfört med konkurrerande metoder, inklusive standard “self-spel.”
Google DeepMind
Det nya arbetet bygger på ett arbete som kallas “Nash i genomsnitt,” som infördes förra året av Balduzzi och kollegor.
Som de beskriver saker i den nya tidningen, de närmar sig problemet av strategi inte av “att försöka hitta en enda dominerande agent som inte finns,” utan snarare “att försöka hitta alla atomära beståndsdelar i strategi loppet av ett nollsummespel.
“Det är vi som mål att upptäcka de underliggande strategiska dimensioner av spelet, och det bästa sätt att utföra dem.”
Också: MIT låter AI “syntetisera” computer program till stöd för data forskare
I ljuset av detta, alla drag av alla spelare avkastning bitar om möjliga strategier som kan utöka den store av användbar kunskap. Detta representeras som en “polytope,” en Euklides geometriska figur off N dimensioner, av vilka två-dimensionell polygoner och tre-dimensionell polyhedrons är den välbekanta exempel. Den polytope representerar “alla sätt agenter […] är-faktiskt-observed-att interagera.” Uttryckt på ett annat sätt, den polytope av gamescape kan “geometriskt representera den latenta mål i spel.”
De inbyggda algoritmer för att utöka kunskapsbasen genom att bilda ett vägt blandning av spelare med hjälp av en statistisk metod, som kallas en “Nash-jämvikt”, som finner strategier för att slå eller slips som en blandning av spelare. “Tanken är att uppmuntra agenter att” förstärka sina styrkor och strunta i sina svagheter.”
Alla val av individuella drag kan fortfarande hända av samma neurala nätverk metoder som används i AlphaGo, såsom inlärning och andra saker att använda gradient härkomst, lager-optimering strategi för maskininlärning.
Det viktiga är att “utöka gamescape,” hitta fler och fler vinnande strategier. Det visar sig, de är ofta “nisch” strategier, särskilda strategier för att vinna i en punkt i spelet, men kanske inte i en annan. Den algoritm “som kommer att växa gamescape genom att hitta dessa bedrifter, vilket genererar en stor befolkning av högt specialiserade agenter.”
Författarna sammanfatta deras strategi “att avslöja strategisk mångfald” i lösningar. Principen är i stort sett i tillämpliga fall, verkar det som. Även ett relativt enkelt spel som stenar, papper, sax är icke-transitiv, och kan spelas upp som ett problem av att utvidga gamescape att hitta underliggande strategier genom olika metoder.
Måste läsa
‘AI är mycket, mycket dumt”, säger Googles AI ledare (CNET)Baidu skapar Kunlun kisel för AIUnified Google AI division en tydlig signal om att AI: s framtid (TechRepublic)
Författarna testade deras nya Nash-strategi mot en klassisk spelteori exempel, Överste Blotto, ett spel av militär strategi, som uppfanns i 1921, som är icke-transitiv som StarCraft II. Den metod “fungerar bättre än de andra metoderna,” inklusive traditionella själv spela i den form som används i AlphaZero, “inom ett brett spektrum av tillåtna beräkna budgetar,” de rapporterar.
Denna typ av “öppet lärande”, som Balduzzi och kollegor sikt, överträffar bara testa-ta av den typiska maskininlärning variant. Balduzzi & Co. tror att deras metod kan “förena modern lutning och förstärkning-baserat lärande med adaptiv de mål som härletts från spel-teoretiska överväganden”.
Med Nash i hand, författarna löfte om att ta på “mer komplexa spel” i framtiden, utan att tippa sin hand på vad de kan vara.
Tidigare och relaterade täckning:
Vad är AI? Allt du behöver veta
En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.
Vad är djupt lärande? Allt du behöver veta
Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.
Vad är lärande? Allt du behöver veta
Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.
Vad är cloud computing? Allt du behöver veta om
En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.
Relaterade Ämnen:
Big Data Analytics
Digital Omvandling
CXO
Sakernas Internet
Innovation
Affärssystem