IBM ‘ s AI flyver frem og tilbage gennem tiden i Flappy Fugl

0
143

IBM Watson, Harvard og MIT arbejde på algoritmer til at forudsige, hjerteanfald
Den tre-årige projekt sigter mod at producere AI modeller, der kan analysere genomiske data, helbredsoplysninger og biomarkører til at forudsige indtræden af hjerteanfald og andre almindelige betingelser.

Smartphone video spil Flappy Fugl blev fjernet fra smartphones i 2014 af dets skaber, Dong Nguyen, fordi det var alt for vanedannende. Men programmet lever videre som en inspiration til dyb læring forskere.

Også: Retfærdighed i AI, StarCraft Udgave

Specifikt, International Business Machines forskere i denne uge afsløret forskning i, hvordan maskiner kan hele tiden lære opgaver, herunder at spille Flappy Fugl, en forbedring over tid, snarere end at lære et niveau af play og stop ved det.

Kendt som livslang læring, eller kontinuerlig læring, området har været undersøgt i årtier, men er stadig en formidabel forskning udfordring.

Bortset fra at tilbyde et vigtigt nyt redskab for AI, arbejdet er noget af en meditation om, hvad det betyder for læring finder sted både fremad og bagud i tid.

Flappy Fugl var en af deres chef tests. I det spil, du er nødt til at flyve den lille animeret fugl sikkert gennem en samling af søjler. IBM-forskere har defineret for hver ændring i det aspekt af spillet, sådan som højden af søjlerne, som en ny opgave. Neurale netværk og derefter er nødt til at ekstrapolere fra den ene opgave til den næste ved at maksimere det, man allerede har lært i tidligere opgaver.

ibm-playing-flappy-bird-april-2019.png

IBM ‘ s arbejde med MIT og Stanford University tests vægt deling for at spille to videospil, “Catcher” og “Flappy Fugl.”

IBM, MIT, Stanford University.

×

ibm-spiller-flappy-fugl-april-2019.png

Kaldes Meta-oplevelse igen, eller MER, det arbejde, der er lidt af et mash-up mellem et par af tidligere tilgange i litteraturen af neurale netværk.

Arbejdet, det at lære At Lære Uden at Glemme Ved at Maksimere Overførsel Og Minimere Interferens, var skrevet af en gruppe fra IBM, MIT og Stanford University, der består af Matthew Riemer, Ignacio Tilfælde, Robert Ajemian, Miao Liu, Irina Rish, Yuhai Tu, og Gerald Tesauro, og er lagt ud på arXiv pre-print-server. Papiret bliver præsenteret på den Internationale Konference om Læring Repræsentationer, der sker i Maj.

Det problem, der opstår i kontinuerlig læring er blevet studeret i årtier. Det blev formuleret af forskere Gail Tømrer og Stephen Grossberg i 1987. Det hedder stabilitets-plasticitet dilemma. En kunstig intelligens-system, de skrev, behov for at være i stand til at plasticitet for at lære om nye væsentlige begivenheder, men det skal også være stabile i respons på irrelevante eller ofte gentagne begivenheder.”

I ord, i henhold til Riemer og hans team, vægten af en dyb læring netværk skal udvikles på en måde, der bevarer og udvider, hvad der er optimeret til hvert enkelt punkt i tid. Målet er at minimere forstyrrelser, afbrydelser af, hvad der er blevet lært, og samtidig maksimere den fremtidige læring ved at give vægt til at ændre på baggrund af ny information.

For at gøre det, forfatterne blandet sammen to stammer af vægt optimering: den Ene kaldes erfaring replay, og en, der hedder Krybdyr.

I det første tilfælde er, at de bygger på kode, der er udviklet af Facebook forskere, David Lopez-Paz og Marc Aurelio Ranzato i 2017, kaldet Gradient Episodisk Hukommelse til Løbende at Lære, eller PERLE. GEM bruger forskellige teknikker til at forhindre sletning af tidligere vægte og sikre stabilitet.

Også: Google ‘ s AI surfer “gamescape” for at erobre game theory

Krybdyr, på den anden side, udviklet sidste år af Alex Nichol, Joshua Achiam og John Schulman af OpenAI, fokuserer på, hvordan at bære frem læring på tidligere opgaver til at hjælpe med indlæring af nye opgaver, som de er stødt på, en form for overførsel af læring.

ibm-explores-transfer-interference-trade-off.png

IBM udforsker “stabilitets-plasticitet dilemma,” og den sammensmeltning af vægte på tværs af tid.

IBM, MIT, Stanford University

×

ibm-ser-transfer-interferens-trade-off.png

Den udfordring af plasticitet-stabilitet er at forene fortid og nutid vægt valg. Det centrale er, at gradient, optimering procedure for hver stikprøve af data, skal være additiv. Det bør altid føre til en bedre vægt valg på ethvert tidspunkt, ikke dem at aflede opmærksomheden fra, hvad der er blevet udviklet, og heller ikke at holde tilbage, vægt forbedring ned linjen.

Forfatterne besluttet, at PERLE og Krybdyr er begrænset i den forstand, at de kun beskæftiger sig med én retning af gangen.

PERLE ønsker at bevare fortiden, ved at beskytte de tidligere vægte, og Krybdyr ønsker at ændre vægte, kun i det øjeblik, nye eksempler er lært. Hvad der er brug for i stedet argumentere for, Riemer og kolleger, er en forestilling om symmetri, hvor værdien af vægte er forbedret til et omfang, der i begge retninger af tid.

“I vores arbejde, og vi forsøger at lære en generalizable teori om vægt deling, der kan lære at påvirke fordelingen af gradienter, ikke blot i fortiden og nutiden, men også i fremtiden.”

Også: AI er ikke nogen studerende: DeepMind næsten dumper high school math

Det er et spørgsmål om “justering” forløb “og dermed vægt deling,” som de skriver, “på tværs af eksempler opstår [sic] både bagud og fremad i tiden.”

“Vi vil gerne indflydelse gradient vinkler fra alle opgaver på alle punkter i tid,” snarere end i et enkelt punkt i tid, skriver de.

At finde en form for ideel gradient descent, de “interleave” eksempler fra de sidste nye eksempel på data, der er truffet en ad gangen, og brug en objektiv funktion, som optimerer gradient over nuværende og tidligere eksempler.

Forfatterne testede deres tilgang på to forskellige neurale netværk benchmark tests. Den ene er en version af den traditionelle “MNIST” data sæt håndskrevne cifre, der er udviklet af National Institute of Standards and Technology. Målet er at identificere mærket eksempler cifre skrevet i en række former og gennem permutationer, såsom rotation.

Den anden test er flappy fugl test, ved hjælp af en forstærkning af læring, baseret på et eksisterende form af neurale netværk, der er kendt som en Dyb Q Netværk, eller DQN.

I begge tilfælde, forfatterne nævner overlegen nøjagtighed og scores i forhold til benchmarks, især i forhold til Lopez-Paz og Ranzato PERLE.

Også: Google ‘ s StarCraft II sejr viser AI forbedrer via mangfoldighed, opfindsomhed, der ikke er reflekser

Den DQN udstyret med MER, de skriver, bliver et Platinum-afspiller på den første opgave, når det er læring den tredje opgave” i Flappy Fugl.

“DQN-MER udviser den form for læring mønstre forventes af mennesker i disse spil, mens en standard DQN kæmper for at generalisere, da spillet ændrer sig, og at bevare viden over tid,” skriver de.

På toppen af gå frem og tilbage på tværs af hældninger, fra fortid til fremtid, der er et par bemærkelsesværdige elementer i dette arbejde.

For én ting, de neurale net beskæftige sig med det faktum, at de efterfølgende opgaver er forskellige distributioner af data, hvad der er kendt som “ikke-stationaritet.” Det er en udfordring for netværk til at generalisere. I modsætning til nogle andre indstillinger, neurale netværk, der er konstrueret i dette tilfælde ikke har nogen eksplicitte signal om, at hver ny opgave er, i virkeligheden, nye. De regler ændres, og de netværk, der blot tilpasser sig.

Skal læse

Hvad er AI? Alt hvad du behøver for at knowWhat er dyb læring? Alt hvad du behøver for at knowWhat er machine learning? Alt hvad du behøver for at knowWhat er cloud computing? Alt, hvad du behøver at vide

Hvad mere er, snarere end at blive behandlet i partier, som det er almindeligt i de fleste neurale netværk, som hvert nyt eksempel, fra data, der er et enkelt eksempel, der behandles én ad gangen. Der har vigtige implikationer for at være i stand til at lære fra sparsomme signaler i data.

To vigtige spørgsmål for arbejdet. Det ene er, om den mangfoldighed af opgaver i noget som Flappy Fugl er udfordrende nok. IBM ‘ s Riemer svarede i en mail til ZDNet, at arbejdet vil tage på flere forskellige sæt af opgaver over tid.

“Vi er glade for at prøve det på en mere ekspansiv og forskellige samlinger af opgaver i fremtiden,” siger Riemer.

På samme tid, han argumenterer underfundighed af opgaver, her er værdifulde. “I betragtning af subtile ikke-stationarities i miljøet betingelser kan være interessant og afslørende så godt,” siger han. “Når ikke-stationarities i miljøet er meget svær, kan det gøre det let for modeller til at opdage dem. Som et resultat, mærke mere subtile ændringer undertiden kan afspejle en mere forfinet evne til at tilpasse sig skiftende omgivelser.”

For det andet, den opgave at Flappy Fugl er et “legetøj” problem, snarere end en real-world challenge. Riemer siger, at holdet har til formål at udvide sit arbejde til også at omfatte dybere udfordringer i fremtiden. De har “for nylig været at udforske miljøer, der er endnu mere ikke-stationære i både indeholder en stor mængde af flere forskellige ‘opgaver’, og i form af at have færre eksempler per ‘opgave’.”

Der er en masse at lære fra simple problemer, siger Riemer. På samme tid, “den interesse, af vores team på IBM er bestemt til at afprøve grænserne for disse funktioner, og bygge AI løsninger, der i sidste ende kan bruges til at løse virkelige problemer for vores kunder.”

Kunstig Intelligens

AI og big data vs etik: Hvordan sørg for, at din artificial intelligence-projekt er på vej den rigtige vej

Kundeservice er klar til et AI revolution

Kunstig intelligens og fremtiden for smartphone-fotografi

Er IBM ‘ s AI demonstration nok til et afgørende killer-app?

IBM rører kontrovers ved at dele fotos til AI facial anerkendelse (CNET)

Virksomheder, der ikke får, hvordan AI cybersecurity værktøjer at arbejde (TechRepublic)

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software