Machine learning går utöver teori att slå mänskliga poker champs

0
144

Kvalitet Data: Den första kilometern av maskininlärning
Att lansera en effektiv maskin lärande initiativ, företag behöver för att börja med kvalitet data — och upprätthålla ett jämnt flöde av data för att hålla uppdaterade modeller, förklarar Dale Brown, Chef för Verksamheten vid Åtta.

Bland de många resultaten av lärande under de senaste åren, några av de mest slående är de segrar maskinen mot mänskliga spelare i spel, som till exempel Googles DeepMind koncernens erövringen av att Gå i 2016. I sådana delmål, forskare ofta styrs av teoretisk matematik som säger att det kan vara en optimal strategi att finna, få en bra algoritm och tillräckligt beräkna.

Men vad gör du när teorin går sönder? Två forskare vid Carnegie Mellon University och Facebook gick tillbaka till ritbordet för att lösa “heads-up no-limit Texas hold’ em, den mest populära form av multiplayer poker i världen.

Teorin inte är beräkningsbar för denna form av spelet, så de har utformat en elegant söka strategier för sina datorprogram, “Pluribus,” att slå de bästa mänskliga spelare på 10 000 händer i poker. Författarna lyckades till och med göra det med en enda, 64-core Intel-baserad server, med bara 512 gigabyte RAM-minne, som de påpekar är långt mindre beräkna än allt gigantiska modeller som DeepMind är “AlphaZero” att använda massor av datorer för att lösa saker och ting.

Snarare än design och optimala lösningar över spelarna, Pluribus programmet söker efter tillräckligt bra lösningar att visa sig att utföra förvånansvärt bra.

Grundfärger: Vad är AI? | Vad är lärande? | Vad är djupt lärande? | Vad är artificiell generell intelligens?

Arbetet, “Övermänsklig AI för multiplayer poker” som beskriver konkurrensen under tolv dagar mot världstoppen spelare på poker, publiceras idag i tidskriften Science och är skriven av Noam Brun och Tuomas Sandholm. Brun och Sandholm båda har anknytningar med Carnegie Mellon University; Brown är också med Facebook AI-Forskning, och Sandholm har anknytningar med tre Pittsburgh företag, Strategiska Maskinen, Inc., Strategi Robot, Inc., och Optimerad Marknader, Inc.

Tidskriften Science har blivit något av ett centrum för avancerad poker artiklar av maskininlärning typer, och detta är den andra förekomsten av Brown och Sandholm i lite över ett år. I januari förra året publicerade de en lärande modell som kallas “Libratus” som skulle uppnå en “övermänsklig” förmåga i två-player version av Texas hold ‘ em poker.

brown-and-standholm-2019-pluribus-poker-search-strategy.png

Brun och Sandholm ‘s real-time search strategi för Pluribus i den tjocka av Texas hold’ em.

Brun och Sandholm

Med Pluribus, författarna tar på en ny nivå av komplexitet som kommer med flera motståndare, i det här fallet, fem människor mot Pluribus maskinen. I de flesta spel som machine learning, bland annat Gå-och två-player poker, det är ett teoretiskt ramverk som utgör grunden för att hitta optimala spela strategier. Den “Nash-Jämvikt,” döpt efter den berömde OSS matematikern John Nash, säger att den optimala spela strategier kan hittas för varje spelare baserat på antagandet att alla motståndare i ett spel är lika som spelar sin bästa strategin.

I ett enkelt spel som stenar, papper, sax, bara spelar samma val varje runda, såsom stenar, kan vara den optimala strategin leder till jämvikt mellan spelarna.

Så gör robotar att spela spel kan i någon mening kokas ned till att bygga en maskin som beräknar Nash-Jämvikt.

Problemet är, som spel ökar i komplexitet, att hitta Nash-Jämvikt blir mer och mer beräkningsmässigt intensiv. Tillnärmning att jämvikt är de bästa datorerna kan göra inom praktiska tidsfrister. Det har fungerat väl för ett antal metoder, och, i synnerhet, i två-spelare heads up poker, det var en metod som fungerade Brun och Sandholm samt med Libratus, som det gjorde för ett annat lag, Moravčik och kollegor vid University of Alberta, som publicerade sina “DeepStack” maskinen för Texas hold ‘ em i Vetenskap 2017.

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem