Het wonder van AI op het gebied van het spelen van games is ingekapseld in de AlphaGo Zero-programma, die in 2017 in staat was om te verslaan van alle menselijke spelers van de oude strategie spel strikt door de zogenaamde “self-speel,” het verkennen van de verschillende mogelijke zetten zonder enige menselijke tips. Een herziene versie, AlphaZero, verworven algemene kennis dat het kan nu blinken niet alleen Gaan, maar ook schaken en het spel Shogi, de japanse versie van het schaakspel.
Vandaar, neurale netwerken kunnen generaliseren over veel spellen gewoon door zichzelf te spelen.
Maar niet alle spellen, zo blijkt. Er zijn een aantal spellen die niet lenen zich voor de AlphaZero aanpak, games bekend technisch als “onovergankelijk.”
Voor deze games, Google DeepMind AI-onderzoekers hebben bedacht een nieuwe truc, een manier van bouwen een soort van super atleet door te streven naar een diversiteit van bewegingen en stijlen van spelen. Het eerste voorbeeld AlphaStar, won onlangs een wedstrijd tegen de beste menselijke spelers van de strategy game StarCraft II, zoals ZDNet opgetekend vorige week.
Ook: Google StarCraft II overwinning toont AI verbetert via diversiteit, uitvinding, geen reflexen

Zelfs een relatief eenvoudig spel, zoals stenen, papier, schaar kan gespeeld worden als een probleem van de uitbreiding van de gamescape te vinden onderliggende strategieën door middel van diverse benaderingen.
Google DeepMind
Terwijl het onderzoek papier voor dat werk is aanstaande, we hebben een beetje een teaser in een paper out (papier op vrijdag, “Open-ended Leren in Symmetrische Zero-sum Games,” gepost op het arXiv pre-print server, geschreven door David Balduzzi en collega ‘ s bij DeepMind, wiens werk leverden een belangrijke manier om de StarCraft inspanning.
Het probleem worden geconfronteerd met StarCraft II is dat in tegenstelling tot schaken en Go, is het niet een spel van perfecte informatie, zoals ze zeggen, waar alle van de tegenstander verplaatst kan worden gezien. Met perfecte informatie, de poging om het oplossen van een spel neer op een zoekopdracht in de mogelijke maatregelen gegeven, een staat in het spel door het vergelijken van de bewegingen van de twee spelers. Een enkele ‘waarde-functie” van de juiste handelingen op het juiste moment kunnen worden geformuleerd gewoon door het vergelijken van deze twee spelers.
In 2015, wanneer AlphaGo eerste behaalden overwinningen tegen de andere programma ‘s Gaan, onderzoeker Chris J. Maddison en collega’ s van Google worden gebruikt als een van hun essentiële hulpmiddelen de mogelijkheid om het neurale netwerk over de classificatie van het menselijke spelers waarvan de bewegingen waren de basis voor de opleiding. Die “een dynamische afwijking van het netwerk dat is afhankelijk van de rang.” Dat signaal hielp de neurale net spelen om beter te spelen door “imiteren” een betere speler van Go.
Ook: China ‘ s AI-wetenschappers leren een neuraal net naar de trein zelf
Met Starcraft II, zulke simpele imitatie werkt niet. Er is geen volledige informatie, zoals in Gaan, en er zijn dus dingen een tegenstander aan het doen is die ongezien door de andere speler. Als een resultaat, de spelen van verborgen informatie niet “transitief” als met schaken en Go, schrijven Balduzzi en collega ‘ s in het laatste rapport. Ze doen niet neer op een vergelijking van de winnaar en de verliezer. In feite, “Er is niet noodzakelijkerwijs een beste agent,” schrijven ze, en met meerdere rondes van de strijd in een spel, de computer kan winnen een aantal rondes tegen zichzelf en anderen verliezen, “en tegelijkertijd het verbeteren tegen een tegenstander en verergering tegen een ander.”
Dat probleem op te lossen, zijn de auteurs op zoek gegaan naar een manier om te analyseren “bevolking” van de spelers. Hun oplossing is wat we noemen een “gamescape,” een extractie van kennis over de strategie van bewegingen van verschillende soorten spelers.
Google DeepMind de onderzoekers tonen visueel voor te stellen hoe hun algoritme, gebaseerd op het zogenaamde Nash-evenwicht, vult een “polytope” van strategieën om in te spelen. De blauwe figuur aan de linkerkant beste “past” de polytope van oplossingen in vergelijking met de concurrerende benaderingen, waaronder standaard “zichzelf spelen.”
Google DeepMind
Het nieuwe werk bouwt voort op het werk genaamd “Nash gemiddeld,” vorig jaar geïntroduceerd door Balduzzi en collega ‘ s.
Als ze beschrijven wat in het nieuwe papier, ze benaderen het probleem van de strategie niet door “proberen te vinden van een machtspositie van één enkele agent die bestaat niet,” maar “proberen te vinden van alle atomaire componenten in de strategie van de ruimte van een zero-sum game.
“Dat is, wij streven naar het ontdekken van de onderliggende strategische dimensies van het spel en de beste manieren van het uitvoeren van de hen.”
Ook: MIT kunt AI “synthetiseren” computer programma ‘ s om de steun van wetenschappers gegevens
In dit licht, al de bewegingen van de spelers opbrengst bits en stukken over mogelijke strategieën die u kunt uitbreiden van de winkel van nuttige kennis. Dit wordt voorgesteld als een “polytope,” een Euclidische geometrische figuur uit N dimensies, waarvan twee-dimensionale polygonen en drie-dimensionale polyhedrons zijn de bekende voorbeelden. De polytope staat voor “alle manieren waarop agenten […] zijn-eigenlijk-observed-om te interageren.” Anders gezegd, de polytope van de gamescape is in staat om “geometrisch vertegenwoordigen de latente doelstellingen in games.”
Ze gebouwd algoritmen die het uitbreiden van de kennisbasis door de vorming van een gewogen mix van spelers, met behulp van een statistische benadering, een zogenaamde “Nash-evenwicht,” die vindt strategieën die verslaan of gelijk mengsel van spelers. “Het idee is om het stimuleren van agenten te ‘versterken van hun sterke en negeren hun zwakheden’.”
Alle keuzes van individuele beweegt kan nog steeds door dezelfde neurale netwerk benaderingen gebruikt in AlphaGo, zoals versterking van het leren en andere dingen, die gebruik gradient descent, een voorraad optimalisatie aanpak van machine learning.
Het belangrijkste is dat van “de uitbreiding van de gamescape,” het vinden van meer en meer winnende strategieën. Het blijkt, dat ze vaak “niche” benaderingen, de specifieke strategieën die winnen in één punt van het spel, maar misschien niet een ander. Het algoritme “zal groeien de gamescape door het vinden van deze exploits, het genereren van een grote populatie van zeer gespecialiseerde agenten.”
De auteurs vatten hun werk als “het blootleggen van strategische diversiteit” in oplossingen. Het principe is breed toepasbaar, zo lijkt het. Zelfs een relatief eenvoudig spel, zoals stenen, papier, schaar is niet-overdraagbaar en kan gespeeld worden als een probleem van de uitbreiding van de gamescape te vinden onderliggende strategieën door middel van diverse benaderingen.
Moet lezen
‘AI is heel, heel stom,’ zegt Google AI leider (CNET)Baidu maakt Kunlun silicium voor AIUnified Google AI afdeling een duidelijk signaal van AI ‘ s toekomst (TechRepublic)
De auteurs getest op hun nieuwe Nash-gedreven aanpak tegen een klassieke speltheorie bijvoorbeeld, Kolonel Blotto, een spel van militaire strategie, uitgevonden in 1921, die niet-transitieve zoals StarCraft II. De aanpak van “beter presteert dan de andere benaderingen,” met inbegrip van traditionele zichzelf spelen van het gebruikte formulier in AlphaZero, “over een breed scala van mogen berekenen van budgetten,” zij rapporteren.
Dit soort van “open-ended leren,” als Balduzzi en collega ‘ s termijn, overtreft louter een test voor het nemen van de typische machine learning variant. Balduzzi & Co. geloven dat hun aanpak “verenigen moderne verloop en versterking-based learning met de adaptieve doelstellingen die zijn afgeleid van spel-theoretische overwegingen.”
Met Nash in de hand, de auteurs pandrecht te nemen op “meer complexe games” in de toekomst, zonder om te vallen in hun hand wat die ook mogen zijn.
Vorige en aanverwante dekking:
Wat is AI? Alles wat je moet weten
Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.
Wat is diep leren? Alles wat je moet weten
De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.
Wat is machine learning? Alles wat je moet weten
In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.
Wat is cloud computing? Alles wat u moet weten over
Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.
Verwante Onderwerpen:
Big Data Analytics
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software