Macchina di apprendimento che va oltre la teoria di battere umana poker champs

0
109

Qualità dei Dati: Il primo miglio della macchina di apprendimento
Per avviare un’efficace macchina di apprendimento iniziativa, le aziende devono iniziare con i dati di qualità — e mantenere un flusso costante di dati per mantenere i modelli aggiornati, spiega Dale Brown, responsabile Operazioni di Figura Otto.

Tra i molti risultati di apprendimento automatico negli ultimi anni, alcuni dei più sorprendenti sono le vittorie della macchina contro giocatori umani nei giochi, come ad esempio Google DeepMind gruppo di conquista di Andare nel 2016. In tali pietre miliari, i ricercatori sono spesso guidati da teorica di matematica che dice che ci può essere un’ottima strategia da trovare, dato un buon algoritmo e basta calcolare.

Ma cosa fare quando la teoria si rompe? Due ricercatori della Carnegie Mellon University e Facebook tornato al tavolo da disegno per risolvere “heads-up no-limit Texas hold’em,” la forma più popolare di poker nel mondo.

La teoria non è calcolabile per questo tipo di gioco di carte, così hanno progettato alcune eleganti strategie di ricerca per il loro programma per computer, “Pluribus,” per battere i migliori giocatori umani in 10.000 mani di poker. Gli autori hanno anche riuscito a farlo con un singolo, 64-core Intel basato su server, con solo 512 gigabyte di RAM, che è molto meno di calcolo che sempre più gigantesche di apprendimento automatico di modelli come DeepMind è “AlphaZero” che usano tonnellate di calcolo per risolvere le cose.

Piuttosto che computing soluzioni ottimali tra i giocatori, il Pluribus programma di ricerche per un buon numero sufficiente di soluzioni che, per eseguire sorprendentemente bene.

Primer: che Cosa è l’IA? | Che cosa è macchina di apprendimento? | Che cosa è un profondo apprendimento? | Ciò che è artificiale intelligenza generale?

Il lavoro, “Sovrumani AI per il multiplayer poker”, che descrive la concorrenza sui dodici giorni contro grandi giocatori al mondo di poker, è pubblicata oggi su Science magazine, ed è scritto da Noam Marrone e Tuomas Sandholm. Marrone e Sandholm entrambi hanno affiliazioni con la Carnegie Mellon University, è di colore Marrone anche con Facebook AI Ricerca, e Sandholm ha affiliazioni con tre Pittsburgh aziende, Strategico Macchina, Inc., Strategia Di Robot, Inc., e Ottimizzata Mercati, Inc.

Science magazine è diventato un focolaio per il taglio-bordo di poker carte da macchina di apprendimento tipi, e questo è il secondo aspetto da Brown e Sandholm in poco più di un anno. Nel gennaio dello scorso anno, hanno pubblicato una macchina di apprendimento del modello chiamato “Libratus”, che potrebbe raggiungere i “sovrumani” capacità a due giocatori versioni di Texas hold’em poker.

brown-and-standholm-2019-pluribus-poker-search-strategy.png

Marrone e Sandholm in tempo reale di strategia di ricerca per Pluribus nel folto del Texas hold’em.

Marrone e Sandholm

Con Pluribus, gli autori assumono un nuovo livello di complessità che viene fornito con più avversari; in questo caso, cinque uomini contro il Pluribus macchina. Nella maggior parte dei giochi presi da macchina di apprendimento, tra cui Go e due giocatori di poker, c’è un quadro di riferimento teorico che costituisce la base per l’individuazione ottimale strategie di giocare. Il “Equilibrio di Nash”, dal nome famoso per NOI il matematico John Nash, dice che la riproduzione ottimale si possono trovare strategie per ogni giocatore basato sul presupposto che ogni avversario in un gioco è ugualmente a giocare la loro strategia migliore.

In un gioco semplice come la roccia, carta, forbici, solo giocando la stessa scelta di ogni partita, come rocce, può essere un’ottima strategia che conduce all’equilibrio tra i giocatori.

Così facendo bot che giocano i giochi possono in qualche modo essere bollito giù per la costruzione di una macchina che consente di calcolare l’Equilibrio di Nash.

Il problema è, come giochi di complessità, di trovare l’Equilibrio di Nash diventa sempre più computazionalmente intenso. Si approssima a quello di equilibrio è il miglior computer può fare all’interno di pratiche limiti di tempo. Ha funzionato bene per un certo numero di approcci, e, in particolare, in due-il giocatore di heads-up poker, è stato un approccio che è servito Marrone e Sandholm bene con Libratus, come ha fatto un altro team, Moravčik e colleghi presso l’Università di Alberta, che hanno pubblicato i loro “DeepStack” macchina per il Texas hold’em nella Scienza, nel 2017.

Argomenti Correlati:

Big Data Analytics

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software