Miraklet af AI i den verden af spil er indkapslet i AlphaGo Nul-programmet, som i 2017 var i stand til at slå alle menneskelige spillere af den gamle strategi spil nøje ved, hvad der kaldes “self-spil,” at udforske forskellige mulige bevæger sig uden menneskelig tips. En revideret version, AlphaZero, opnået en sådan almen viden, at det nu kan udmærke sig ved ikke kun at Gå, men også skak og spil, Shogi, Japan ‘ s version af chess.
Derfor, neurale net kan generalisere på tværs af mange spil blot ved selv at spille.
Men ikke alle spil, viser det sig. Der er nogle spil, der ikke egner sig til AlphaZero tilgang, spil kendt teknisk for at være “intransitive.”
For disse spil, er Google ‘ s DeepMind AI forskere har fundet ud af et nyt trick, en måde at konstruere en slags super-atlet ved at søge mangfoldighed af bevægelser og stilarter af spille. Det primære eksempel, AlphaStar, der for nylig vandt en kamp mod de bedste menneskelige spiller i strategy spil, StarCraft II, som ZDNet beskrev i sidste uge.
Også: Google ‘ s StarCraft II sejr viser AI forbedrer via mangfoldighed, opfindsomhed, der ikke er reflekser

Selv et relativt simpelt spil som sten, papir, saks kan spilles som et problem i at udvide gamescape at finde underliggende strategier gennem forskellige tilgange.
Google DeepMind
Mens forsknings-papir til at arbejde er forestående, har vi lidt af en teaser i et papir ud fredag, “Open-ended Læring i Symmetrisk om Nul-sum Spil,” udgivet på arXiv pre-print server, forfattet af David Balduzzi og kolleger på DeepMind, hvis tidligere arbejde har bidraget til en vigtig vej til StarCraft indsats.
Problemet bliver konfronteret med StarCraft II er, at i modsætning til skak og Go, det er ikke et spil med perfekt information, som de siger, hvor alle modstanderens træk kan ses. Med perfekt information, en indsats for at løse et spil, kan koges ned til en søgning på tværs af mulige handlinger i betragtning af, at nogen stat i spil ved at sammenligne bevæger sig på to spillere. En enkelt “værdi funktion” af de rigtige bevægelser på de rigtige tidspunkter, kan formuleres blot ved at sammenligne de to spillere.
I 2015, når AlphaGo første hak op vinder mod andre Go-programmer, forsker Chris J. Maddison og kolleger på Google anvendes som et af deres vigtige redskaber evnen til at fortælle den neurale netværk om placeringen af menneskelige aktører, hvis træk var grundlag for uddannelsen. Der gives “en dynamisk tilbøjelighed til det netværk, der afhænger af rang.” Dette signal hjalp det neurale net spil at spille bedre ved at “efterligne” en bedre spiller af at Gå.
Også: Kina ‘ s AI-forskere underviser i et neuralt net til at uddanne sig
Med Starcraft II, sådan simpel efterligning virker ikke. Der er ikke fuld information, som i Går, og så er der ting, en modstander gør, der er uset af andre spillere. Som et resultat, spil med skjulte oplysninger, der ikke er “transitive” som skak og Go, skriver Balduzzi og kolleger i den seneste rapport. De må ikke koges ned til en sammenligning af en vinder og en taber. I virkeligheden, “Der er ikke nødvendigvis en bedste agent,” skriver de, og med flere runder af kampe i et spil, computeren kan vinde nogle runder mod sig selv og taber andre, “samtidig forbedrer mod en modstander og forværring mod en anden.”
For at løse dette problem, forfatterne gik på jagt efter en måde at analysere “populationer” af spillere. Deres løsning er noget, der hedder en “gamescape,” en udvinding af viden om strategi bevæger sig ved forskellige typer af spillere.
Google DeepMind ‘ s forskere viser visuelt, hvordan deres algoritme, baseret på den såkaldte Nash ligevægt, udfylder en “polytope” af strategier er i spil. De blå tal på venstre side bedst “passer” polytope af løsninger i forhold til de konkurrerende tilgange, herunder standard “self-spil.”
Google DeepMind
Det nye arbejde bygger på arbejde, der kaldes “Nash gennemsnit”, der blev indført sidste år af Balduzzi og kolleger.
Som de beskriver ting i det nye papir, de har en tilgang til problemet om strategi ikke ved “forsøger at finde en enkelt dominerende stof, som muligvis ikke findes,” men snarere, “forsøger at finde alle de atomare komponenter i strategi plads af et nul-sum spil.
“Det er, vi sigter mod at opdage de underliggende strategiske dimensioner af spillet, og de bedste måder til at udføre dem.”
Også: MIT lader AI “syntetisere” computer programmer til at hjælpe data forskere
I dette lys, alle bevæger sig af alle de spillere udbytte stumper og stykker om mulige strategier, der kan udvide butikken med nyttig viden. Dette er repræsenteret som en “polytope,” en Euklidisk geometrisk figur fra N dimensioner, hvoraf de to-dimensionelle polygoner og tre-dimensionelle polyhedrons er de velkendte eksempler. Den polytope repræsenterer “alle de måder, agenter, [ … ] er-faktisk-observed-til at interagere.” Sagt på en anden måde, polytope af gamescape er i stand til at “geometrisk repræsenterer den latente mål i spil.”
De indbyggede algoritmer, som kan udvide knowledge base ved at danne en vægtet blanding af spillere, ved hjælp af en statistisk metode kaldet en “Nash ligevægt”, som finder strategier for at slå eller tie denne blanding af spillere. “Ideen er, at tilskynde agenter til at” forstærke deres styrker og ignorere deres svagheder.”
Alle de valg, individet bevæger sig, kan der stadig ske efter de samme neurale netværk tilgange, der anvendes i AlphaGo, såsom styrkelse læring og andre ting at bruge gradient descent, et stock optimering tilgang af machine learning.
Den vigtige del er at “udvide gamescape,” at finde mere og mere vindende strategier. Det viser sig, de er ofte “niche” – metoder, særlige strategier for at vinde i et punkt af spillet, men måske ikke en anden. Algoritmen “vil vokse gamescape ved at finde disse huller, der skaber en stor gruppe af højt specialiserede agenter.”
Forfatterne opsummere deres tilgang som “afdække strategiske mangfoldighed” i løsninger. Princippet er bredt anvendelige, synes det. Selv et relativt simpelt spil som sten, papir, saks er ikke-transitive, og kan spilles som et problem i at udvide gamescape at finde underliggende strategier gennem forskellige tilgange.
Skal læse
“AI er meget, meget dum, “siger Google’ s AI-leder (CNET)Baidu skaber Kunlun silicium til AIUnified Google AI division et klart signal om, at AI ‘ s fremtid (TechRepublic)
Forfatterne testet deres nye Nash-drevet tilgang mod en klassisk spilteori eksempel, Oberst Blotto, et spil af militær strategi, som blev opfundet i 1921, som er ikke-transitive som StarCraft II. Den tilgang, “udkonkurrerer andre måder, herunder traditionelle self-spil af den form, der anvendes i AlphaZero, “på tværs af en bred vifte af lov beregne budgetter,” de betænkning.
Denne form for “open-ended læring,” som Balduzzi og kolleger sigt, overgår simpel test-tager de typiske machine learning variant. Balduzzi & Co. de mener, at deres fremgangsmåde kan “forene moderne gradient og forstærkning-baseret læring med den adaptive mål fra spil-teoretiske overvejelser.”
Med Nash i hånd, forfatterne løfte om at tage på “mere komplekse spil” i fremtiden, uden at vælte deres hånd, hvad disse måtte være.
Tidligere og relaterede dækning:
Hvad er AI? Alt, hvad du behøver at vide
En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.
Hvad er dyb læring? Alt, hvad du behøver at vide
Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.
Hvad er machine learning? Alt, hvad du behøver at vide
Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.
Hvad er cloud computing? Alt, hvad du behøver at vide om
En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.
Relaterede Emner:
Big Data Analytics
Digital Transformation
CXO
Tingenes Internet
Innovation
Virksomhedens Software