IBM: s AI flyger fram och tillbaka genom tiden i Flappy Fågel

0
127

IBM Watson, Harvard och MIT som arbetar på algoritmer för att förutse hjärtinfarkt
De tre-årigt projekt som syftar till att producera AI modeller som kan analysera genetiska data, journaler och biomarkörer för att förutsäga uppkomsten av hjärtinfarkt och andra gemensamma villkor.

Smartphone video game Flappy Fågel togs bort från smartphones 2014 av dess skapare, Dong Nguyen, eftersom det var alltför beroendeframkallande. Men programmet lever vidare som en inspiration för djupt lärande forskare.

Också: Rättvisa i AI, StarCraft Edition

Specifikt, International Business Machines forskare denna vecka presenterade forskning om hur maskiner ständigt kan lära sig uppgifter, inklusive att spela Flappy Fågel, en förbättring över tid snarare än att lära sig en nivå av lek och stannar vid det.

Känd som livslångt lärande och kontinuerlig inlärning, det område som har studerats i årtionden men är fortfarande en formidabel forskning utmaning.

Bortsett från att erbjuda ett viktigt nytt verktyg för AI, arbetet är något av en meditation på vad det innebär att lära sig att ta plats både framåt och bakåt i tiden.

Flappy Fågel var en av deras viktigaste testerna. I detta spel, du har att flyga liten animerad fågel på ett säkert sätt genom en samling av pelare. IBM-forskare definieras varje förändring i den aspekten av spelet, såsom höjden av pelarna, som en ny uppgift. Neurala nätverk har då att extrapolera från en uppgift till nästa genom att maximera vad har man redan lärt sig i tidigare uppgifter.

ibm-playing-flappy-bird-april-2019.png

IBM: s arbete med MIT och Stanford University tester vikt delning för att spela två tv-spel, “Catcher” och “Flappy Fågel.”

IBM, MIT, Stanford University.

×

ibm-spela-flappy-fågel-april-2019.png

Kallas Meta-erfarenhet repris, eller MER, det är en bit av en mash-up mellan ett par av tidigare metoder i litteraturen av neurala nätverk.

Arbetet, lära Att Lära, Utan att Glömma Genom att Maximera Överföring Och Minimera Störningar, var skriven av en grupp från IBM och MIT, Stanford University, som består av Matthew Riemer, Ignacio Fall, Robert Ajemian, Miao Liu, Irina Rish, Yuhai Tu, och Gerald Avgörande, och är inlagd på arXiv pre-print-server. Uppsatsen presenteras vid den Internationella Konferensen om Lärande Representationer, som händer i Maj.

De problem som uppstår i ett kontinuerligt lärande har studerats i årtionden. Det var som formulerats av forskarna Gail Snickare och Stephen Grossberg 1987. Det kallas stabilitets-plasticitet dilemma. En artificiell intelligens, skrev de, har behov av att vara “i stånd till plasticitet för att lära sig om betydande nya händelser, men det måste också vara stabil i svar till irrelevanta eller ofta upprepade händelser.”

I ord, enligt Riemer och hans team, vikten av en djup lärande nätverk måste utvecklas på ett sätt som bevarar och förlänger vad som är optimerad på varje punkt i tid. Målet är att minimera störningar, avbrott av vad man lärt sig, och samtidigt maximera framtida lärande genom att låta vikter till förändring baserat på ny information.

För att göra det, författarna blandat ihop två stammar av vikt optimering: En som kallas erfarenhet replay, och en som kallas Reptil.

I det första fallet, de bygger på kod som utvecklats av Facebook forskare David Lopez-Paz och Marc’Aurelio Ranzato 2017, som kallas Lutning Episodiskt Minne för Ständigt Lärande, eller GEM. GEM använder olika tekniker för att förhindra radering av tidigare vikter och garantera stabilitet.

Också: Googles AI surfar “gamescape” att erövra spelteori

Reptil, å andra sidan, som utvecklats under det senaste året av Alex Nichol, Joshua Achiam och Johannes Schulman av OpenAI, fokuserar på hur man skall bära fram lärande på tidigare uppgifter för att hjälpa dem att lära sig nya uppgifter som de stött på, en form av överföring lärande.

ibm-explores-transfer-interference-trade-off.png

IBM utforskar den “stabilitet-plasticitet dilemma,” och sammanslagning av vikter hela tiden.

IBM, MIT, Stanford University

×

ibm-utforskar-transfer-interferens-trade-off.png

Utmaningen av plasticitet-stabilitet är att förena dåtid och nutid vikt val. Det viktiga är att lutningen, optimering förfarande för varje prov av data, bör vara additiva. Det bör alltid leda till bättre vikt val när som helst, inte de som avleder uppmärksamheten från vad som har utvecklats eller att hålla tillbaka vikt förbättring ner linjen.

Författarna bestämde sig för att PÄRLA och Reptil är begränsad i den meningen att de bara är intresserade av en riktning tid.

GEM vill bevara det förflutna genom att skydda tidigare vikter, och Reptil vill ändra vikter bara för tillfället nya exempel har lärt sig. Vad som behövs istället, hävdar Riemer och kollegor, är en föreställning av symmetri, där värdet av vikter är bättre i en omfattning som i båda riktningarna tid.

“I vårt arbete försöker vi att lära oss en generaliserbar teori om vikt och delar som kan lära sig att påverka fördelningen av gradienter inte bara i dåtid och nutid, men också i framtiden.”

Också: AI är inte En student: DeepMind nästan flunkar high school math

Det är en fråga om att “anpassa” gradienter “och därmed vikt delning,” skriver de, “över exempel uppstår [sic] både bakåt och framåt i tiden.”

“Vi skulle vilja att påverka lutning vinkel från samtliga uppgifter på alla punkter i tid” snarare än för en enda gång i tiden, skriver de.

Att hitta en typ av perfekt lutning härkomst, de “interleave” exempel från det förflutna med varje nytt exempel på data, tas en i taget, och använda en objektiv funktion som optimerar gradient över nuvarande och tidigare exempel.

Författarna testade deras syn på två olika neurala nätverk benchmark-tester. Den ena är en version av den traditionella “MNIST” uppsättning data med handskrivna siffror, som utvecklats av National Institute of Standards and Technology. Målet är att identifiera märkt exempel på siffror skrivna i en mängd olika former och genom olika kombinationer som till exempel rotation.

Det andra testet är flappy fågel test, med hjälp av en förstärkning lärande, baserad på en existerande typ av neurala nätverk känd som en Djupt Q Nätverk, eller DQN.

I båda fallen, författarna cite överlägsen precision resultat i förhållande till riktmärken, särskilt jämfört med Lopez-Paz och Ranzato GEM.

Också: Google: s StarCraft II seger visar AI förbättrar via mångfald, uppfinning, inte reflexer

Den DQN utrustade med MER, som de skriver, “blir en Platinum-spelare på första uppgift när det lärande den tredje uppgiften” i Flappy Fågel.

“DQN-MER utställningar den typ av lärande mönster som förväntas av människor för dessa spel, medan en standard DQN kämpar för att generalisera eftersom spelet ändras och att behålla kunskap över tid,” skriver de.

På toppen av att flytta bakåt och framåt i hela gradienter, från dåtid till framtid, det finns ett par anmärkningsvärda artiklar i detta arbete.

För en sak, neurala nät handskas med det faktum att de på varandra följande uppgifter är olika fördelningar av data, vad som är känt som “icke-stationaritet.” Det utgör en utmaning för nätverk för att generalisera. Till skillnad från i vissa andra inställningar, neurala nätverk byggda i detta fall har ingen tydlig signal om att varje ny uppgift är, i faktum, nya. Spelets regler förändras och nätverk helt enkelt anpassar sig.

Måste läsa

Vad är AI? Allt du behöver för att vetavad är djupt lärande? Allt du behöver för att vetavad är lärande? Allt du behöver för att vetavad är cloud computing? Allt du behöver veta

Vad är mer, snarare än att behandlas i partier, som är vanligt i de flesta neurala nätverk, vart och ett nytt exempel från data är ett exempel, behandlas en i taget. Som har betydelse för att kunna lära sig från gles signaler i data.

Två viktiga frågor för arbetet. Den ena är om den mångfald av uppgifter i något som Flappy Fågel är tillräckligt utmanande. IBM: s Riemer svarade i ett e-postmeddelande till ZDNet att arbetet kommer att ta på flera olika uppsättningar av uppgifter över tid.

“Vi är glada att prova det om mer omfattande och varierande samlingar av uppgifter i framtiden, säger Riemer.

Samtidigt, menar han subtilitet av uppgifter här är värdefull. “Med tanke på subtila icke-stationarities i miljön kan vara intressant och avslöjande som väl”, säger han. “När icke-stationarities i miljön är mycket svår, det kan göra det enkelt för modeller för att upptäcka dem. Som ett resultat, märker mer subtila förändringar kan ibland spegla en mer förfinad förmåga att anpassa sig till nya miljöer.”

Andra uppgiften Flappy Fågel är en “leksak” problem, snarare än en verklig utmaning. Riemer säger team syftar till att bredda arbetet till att omfatta djupare utmaningar i framtiden. De har “nyligen har varit att utforska miljöer som är ännu mer icke-stationära både i termer av att det innehåller en stor mängd av mer varierande uppgifter” och i termer av att ha färre exempel per ‘uppgift’.”

Det finns en hel del att lära från enkla problem, säger Riemer. På samma gång, “intresse av vårt team på IBM är säkert att testa gränserna för dessa funktioner och bygga AI lösningar som så småningom kan användas för att lösa verkliga problem för våra kunder.”

Artificiell Intelligens

AI och big data vs etik: Hur att se till att din artificiell intelligens projektet är på väg rätt sätt

Kundtjänst är redo för en AI-revolution

Artificiell intelligens och framtiden för smartphone fotografering

IBM: s AI demonstration nog för en quantum killer-app?

IBM väcker kontrovers genom att dela foton för AI ansiktsigenkänning (CNET)

Företagen fattar inte hur AI it-säkerhet verktyg som fungerar (TechRepublic)

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem