DeepMind AlphaGo Noll lär sig på egen hand utan ingripande meatbag

0
165

Noll

alphago-zero.png
(Bild: DeepMind)

DeepMind har sagt att det har skapat den bästa Gå-spelare i världen, eftersom det kunde göra sig av med mänsklig kunskap och börja med ett oskrivet blad.

AlphaGo Noll börjar genom att spela “helt random” Gå spel mot sig själv, och i tre dagar kan besegra med 100 spel till 0 versionen av AlphaGo som besegrade Lee Se-dol i Mars 2016, sade företaget i ett blogginlägg.

Av 21-dagars mark, är det möjligt att besegra AlphaGo Master — en online-version som dök upp i januari och vann över 60 rakt spel mot toppen Gå-spelare-och efter 40 dagar kan slå alla andra versioner av AlphaGo.

DeepMind en av grundarna och VD Demis Hassabis sade utbildningen för neurala nätverk underliggande AlphaGo Noll var skalas för att ta bort några “hand-engineered har” använt tidigare, använt sig av ett enda nätverk snarare än ett par nätverk, och gjorde sig av med Monte-Carlo utbyggnader.

“Systemet börjar med ett neuralt nätverk som inte vet något om spelet Gå. Det spelar sedan spel mot sig själv, genom att kombinera denna neurala nätverk med ett kraftfullt sök algoritm,” Hassabis sagt. “Detta uppdaterad neurala nätverk är sedan modifierat med sök algoritm för att skapa en ny, starkare version av AlphaGo Noll, och processen börjar om igen.”

“Denna teknik är mer kraftfull än tidigare versioner av AlphaGo eftersom det inte längre begränsas av gränserna för mänsklig kunskap. Det är i stället kunna lära sig tabula rasa från den starkaste spelaren i världen: AlphaGo själv.”

Genom att ta bort behovet av att lära sig från andra människor, DeepMind forskaren David Silver sade att det är möjligt att ha en generell AI-algoritmer.

“Det faktum att vi har sett ett program uppnå en mycket hög nivå av prestanda i en domän så komplicerat och utmanande som Går bör innebära att vi nu kan börja ta itu med några av de mest utmanande och effektfulla problem för mänskligheten”, sa han.

Även om DeepMind fått en framträdande plats genom att besegra de mänskliga Go-spelare, har företaget även vände sin uppmärksamhet till StarCraft II.

“Vi har arbetat nära med StarCraft II team för att utveckla ett API som stöder något liknande tidigare bots skrivs med ett “manus” – gränssnittet, vilket gör att programmatiska kontroll av enskilda enheter och få tillgång till hela spelet staten (med några nya alternativ),” DeepMind sade i November 2016.

“I slutändan, agenter kommer att spela direkt från pixlar, så för att få oss där, vi har utvecklat en ny bild-baserat gränssnitt som lämnar en förenklad lågupplöst RGB-bild-data för karta och minimap, och möjlighet att bryta ut funktioner i olika “skikt”, terräng heightfield, enhet typ, enheten för hälsa, etc.”

Alfabetet-ägda företaget sa att det valde StarCraft II, eftersom det var närmare en verklig värld än alla andra spel det har används för att testa så långt, som det spelas i realtid.

“Den kompetens som krävs för att en agent för att framsteg genom miljön och spela StarCraft väl i slutändan skulle kunna överföra till verkliga uppgifter,” det påstås.

Relaterade täckning

Det finns en enorm möjlighet i robotik för tidiga karriär som forskare och allvarliga programvara ingenjörer

Maya Cakmak är banbrytande sätt för icke-experter att programmera robotar. Hennes arbete är att öppna ett nytt fält som du bör veta om.

AI och robotik, IoT, förstärkt och virtuella verkligheten att stärka IKT-utgifterna

Enligt IDC, satsningar på ny teknik kommer att accelerera under de kommande fem åren och öka utgifterna för informations-och kommunikationsteknik generellt.

Roboten revolutionen har redan hänt i ett överraskande stort antal branscher (och det har ingenting att göra med AI)

Prisvärd robotautomation är nu tillgängliga till mamma och pop butiker, som driver crazy tillväxt i robotik-branschen.

0