Il miracolo di AI nel regno di giochi è incapsulato nel AlphaGo Zero, che nel 2017 è stato in grado di battere tutti i giocatori umani dell’antico gioco di strategia strettamente da ciò che si chiama “auto-play,” esplorando diverse possibilità di movimento senza umana consigli. Una versione riveduta, AlphaZero, acquisito conoscenza generale che può ora eccellere non solo fare, ma anche scacchi e il gioco dello Shogi, Giappone versione degli scacchi.
Quindi, le reti neurali non si può generalizzare in molti giochi da auto-play.
Ma non tutti i giochi, si scopre. Ci sono alcuni giochi che non si prestano a AlphaZero approccio, giochi tecnicamente noto come “intransitivo.”
Per questi giochi, Google DeepMind AI ricercatori hanno scoperto un nuovo trucco, un modo di costruire una sorta di super atleta cercando la diversità delle mosse e stili di gioco. L’esempio principale, AlphaStar, di recente ha vinto una partita contro il miglior giocatore umano del video gioco di strategia StarCraft II, come ZDNet raccontato la scorsa settimana.
Anche: Google StarCraft II vittoria mostra AI migliora via diversità, invenzione, non riflessi

Anche un gioco relativamente semplice come la roccia, carta, forbici può essere giocato come un problema di ampliare la gamescape per trovare strategie sottostanti attraverso diversi approcci.
Google DeepMind
Mentre la ricerca di un lavoro è imminente, abbiamo un po ‘ di un teaser in un documento del venerdì, “Open-ended di Apprendimento in Simmetrica a somma Zero Giochi”, pubblicato su arXiv pre-server di stampa, scritto da Davide Balduzzi e i suoi colleghi DeepMind, il cui precedente lavoro ha contribuito in maniera importante alla StarCraft sforzo.
Il problema del confronto con StarCraft II è che a differenza di scacchi e Go, non è un gioco a informazione perfetta, come si dice, in cui tutte le mosse dell’avversario può essere visto. Con informazione perfetta, lo sforzo per risolvere un gioco si riduce a una ricerca tra le azioni possibili, dato lo stato di gioco confrontando le mosse dei due giocatori. Un singolo valore di “funzione” di ” le mosse giuste al momento giusto può essere formulato solo dal confronto di questi due giocatori.
Nel 2015, quando AlphaGo primo collezionato vittorie contro gli altri Andare programmi, ricercatore Chris J. Maddison e i suoi colleghi di Google utilizzato come uno dei loro strumenti critici per la capacità di raccontare la rete neurale per il posizionamento dei giocatori umani di cui i movimenti sono stati la base per la formazione. Che ha fornito “una dinamica di polarizzazione per la rete che dipende dal rango.” Che segnale ha aiutato la rete neurale per giocare meglio da “imitare” un giocatore migliore di Andare.
Anche: Cina AI scienziati insegnare una rete neurale di treno stesso
Con Starcraft II, come semplice imitazione non funziona. Non c’è piena di informazioni, come in Go, e quindi ci sono cose un avversario che sta facendo invisibili dall’altro giocatore. Come risultato, giochi di informazioni nascoste non sono “transitivo” come con gli scacchi e Go, scrivere Balduzzi e colleghi nell’ultima relazione. Non si riducono a un confronto tra il vincitore e il perdente. Infatti, “non Vi è necessariamente una migliore agente,” scrivono, e con più round di combattimento in qualsiasi gioco, il computer potrebbe vincere alcune gare contro se stessa e perdere gli altri, “a migliorare allo stesso tempo contro un avversario ed un peggioramento rispetto a un altro.”
Per risolvere il problema, gli autori sono andato alla ricerca di un modo per analizzare le “popolazioni” di gioco giocatori. La loro soluzione è una cosa chiamata “gamescape,” estrazione di conoscenza circa la strategia si muove da diversi tipi di giocatori.
Google DeepMind ricercatori mostrano visivamente come il loro algoritmo, basato sul cosiddetto equilibrio di Nash, compila un “polytope” di strategie nei giochi. La figura blu sul lato sinistro migliori “si adatta” il polytope di soluzioni rispetto ai concorrenti approcci, tra cui standard “auto-play.”
Google DeepMind
Il nuovo lavoro si costruisce sul lavoro chiamato “Nash media”, ha introdotto lo scorso anno da Balduzzi e colleghi.
Come descrivere le cose nel nuovo foglio di carta, affrontare il problema della strategia non da “cercando di trovare un unico dominante agente che non può esistere”, ma piuttosto, “cerchiamo di trovare tutte le atomica componenti strategia di spazio di un gioco a somma zero.
“Che è, cerchiamo di scoprire le sottostanti dimensioni strategiche del gioco, e i modi migliori per la loro esecuzione.”
Anche: MIT consente AI “sintetizzare” i programmi per computer per gli aiuti dati scienziati
In questa luce, tutte le mosse di tutti i giocatori di rendimento di bit e pezzi sulle possibili strategie che si possono espandere il negozio di conoscenze utili. Questo è rappresentato come un “polytope,” una figura geometrica Euclidea N dimensioni, di cui due-dimensionale poligoni tridimensionali e poliedri sono gli esempi familiari. Il polytope rappresenta “tutti i modi di agenti […] sono-in realtà-ha osservato-per interagire.” Mettere un altro modo, il polytope del gamescape è in grado di “rappresentare geometricamente latente obiettivi nei giochi.”
Hanno costruito algoritmi di ampliare la base di conoscenze attraverso la formazione di una miscela ponderata di tutti i giocatori, utilizzando un approccio statistico chiamato un “equilibrio di Nash”, che si realizza strategie che battere o il legame che la miscela di giocatori. “L’idea è di incoraggiare gli operatori a ‘amplificare i loro punti di forza e di ignorare le loro debolezze’.”
Tutte le scelte dell’individuo si muove può ancora succedere la stessa rete neurale approcci utilizzati in AlphaGo, come il rafforzamento dell’apprendimento e altre cose che uso gradiente di discesa, un magazzino approccio di ottimizzazione di machine learning.
La parte importante è quella di “ampliare la gamescape,” la ricerca di ulteriori e più strategie vincenti. Si scopre, si tratta spesso di “nicchia” approcci, strategie particolari che vincere in un punto del gioco, ma forse non in un altro. L’algoritmo di “cresceranno i gamescape da trovare questi exploit, generando una grande popolazione di personale altamente specializzato agenti”.
Gli autori riassumono il loro approccio come “scoprire diversità strategica” in soluzioni. Il principio è applicabile, a quanto pare. Anche un gioco relativamente semplice come la roccia, carta, forbici non è transitivo, e può essere giocato come un problema di ampliare la gamescape per trovare strategie sottostanti attraverso diversi approcci.
Deve leggere
‘IA è molto, molto stupido”, dice Google AI leader (CNET)Baidu crea Kunlun di silicio per AIUnified Google IA divisione di un chiaro segnale di AI del futuro (TechRepublic)
Gli autori hanno testato il loro nuovo Nash approccio contro un classico della teoria dei giochi esempio, il Colonnello Blotto, un gioco di strategia militare, inventato nel 1921, che non è transitivo come StarCraft II. L’approccio “surclassa gli altri approcci,” comprese le tradizionali auto-play del modulo usato in AlphaZero, “attraverso una vasta gamma di permesso di calcolare i bilanci,” loro relazione.
Questo tipo di “open-ended “apprendimento”, come Balduzzi e colleghi termine, supera la mera fare test della macchina tipica di apprendimento variante. Balduzzi & Co. ritengono che il loro approccio in grado di “unificare moderna gradiente di rinforzo dell’apprendimento basato sui adaptive obiettivi derivati da gioco-considerazioni teoriche.”
Con Nash in mano, gli autori si impegnano a prendere “giochi più complessi” in futuro, senza ribaltare la mano come a quello che potrebbero essere.
Precedente e relativa copertura:
Che cosa è l’IA? Tutto quello che devi sapere
Un esecutivo a guida di intelligenza artificiale, machine learning e generale AI alle reti neurali.
Cos’è il deep learning? Tutto quello che devi sapere
Il lowdown su deep learning: da come si relaziona con il più ampio campo di machine learning a come iniziare con esso.
Che cosa è macchina di apprendimento? Tutto quello che devi sapere
Questa guida spiega in cosa consiste la macchina di apprendimento, di come esso è legato all’intelligenza artificiale, come funziona e perché è importante.
Che cos’è il cloud computing? Tutto quello che devi sapere su
Un’introduzione al cloud computing destra, dalle nozioni di base fino a IaaS e PaaS, ibrido, public e private cloud.
Argomenti Correlati:
Big Data Analytics
La Trasformazione Digitale
CXO
Internet delle Cose
L’innovazione
Enterprise Software