DeepMind AI agenti di superare ‘umana- ” a livello di gameplay di Quake III

0
110

AI gli agenti continuano ad accumulare vittorie nel mondo dei videogiochi. La scorsa settimana, OpenAI del bot stavano giocando a Dota 2; questa settimana, Quake III, con un team di ricercatori di Google DeepMind controllata con successo la formazione di agenti in grado di battere l’uomo in un gioco di cattura la bandiera.

Come abbiamo già visto con gli esempi precedenti di giocare AI video giochi, la sfida è la formazione di un agente che può navigare in un complesso ambiente 3D con informazione imperfetta. DeepMind s i ricercatori hanno usato un metodo di AI di formazione che è anche diventando standard: il rafforzamento dell’apprendimento, che è sostanzialmente la formazione per prova ed errore in una scala enorme.

DeepMind del bot imparato giocando a 450.000 giochi contro se stessi

Gli agenti sono date istruzioni su come si gioca il gioco, ma semplicemente competere contro se stessi fino a quando lavoro con le strategie necessarie per vincere. Di solito questo significa che una versione dell’AI, agente di giocare contro un clone identico. DeepMind ha dato più profondità a questa formula attraverso la formazione di una intera coorte di 30 agenti di introdurre una “diversità” di stili di gioco. Quanti giochi ci vuole per formare un AI in questo modo? Quasi mezzo milione, ciascuno della durata di cinque minuti.

Come sempre, è impressionante come un concettualmente semplice tecnica può generare un comportamento complesso, a nome del bot. DeepMind agenti, non solo imparato le regole di base di capture the flag (afferrare i tuoi avversari’ flag dalla loro base e tornare alla propria prima che loro facciano lo stesso con voi), ma le strategie di come salvaguardare la propria bandiera, campeggio alla base del tuo avversario, e a seguito di compagni di squadra, si può attaccare il nemico.

Per rendere la sfida più difficile per gli agenti, ogni gioco è stato giocato su una completamente nuova, generata proceduralmente mappa. Questo ha garantito il bot non erano le strategie di apprendimento che solo lavorato su una singola mappa.

A differenza di OpenAI della Dota 2 bot, DeepMind gli agenti non hanno accesso alle materie dati numerici sul gioco feed di numeri che rappresenta informazioni come la distanza tra i due avversari e barre di salute. Invece, hanno imparato a giocare solo guardando l’input visivo dallo schermo, lo stesso come un essere umano. Tuttavia, questo non significa necessariamente che DeepMind del bot di fronte una grande sfida; Dota 2 è in generale un sistema molto più complesso gioco che la versione ridotta di Quake III che è stato utilizzato in questa ricerca.

Per testare l’IA degli agenti di abilità, DeepMind tenuto un torneo, con due squadre di solo i bot, solo esseri umani, e una miscela di bot e umani squadratura uno contro l’altro. Il bot solo le squadre hanno avuto maggior successo, con un 74% di probabilità di vincita. Questo a fronte del 43 precent probabilità per la media dei giocatori umani, e il 52 per cento di probabilità per i forti giocatori umani. Così: è chiaro che l’IA agenti sono i migliori giocatori.

Un grafico che mostra l’Elo (abilità) valutazione dei vari giocatori. “FTW” agenti sono DeepMind, che hanno giocato contro di loro in un team di 30.

Credito: DeepMind

Tuttavia, vale la pena notare che maggiore è il numero di DeepMind bot su una squadra, il peggio hanno fatto. Un team di quattro DeepMind bot aveva una probabilità di vittoria del 65 per cento, suggerendo che, mentre i ricercatori di IA agenti hanno apprendere alcuni elementi di gioco cooperativo, questi non devono necessariamente scala fino a quelle più complesse e dinamiche di gruppo.

Come mai con la ricerca come questo, l’obiettivo non è realmente battere gli esseri umani a video giochi, ma per trovare nuovi modi di insegnamento agenti per navigare in ambienti complessi, pur perseguendo un obiettivo condiviso. In altre parole, si tratta di insegnare l’intelligenza collettiva — qualcosa che ha (nonostante abbondanti prove del contrario) è stato parte integrante dell’umanità successo come specie. Cattura la bandiera è solo un proxy per i più grandi giochi a venire.