IBM AI mosche e indietro nel tempo in Flappy Bird

0
169

IBM Watson, Harvard e il MIT di lavoro su algoritmi che prevedere gli attacchi di cuore
Il progetto triennale che mira a produrre AI modelli in grado di analizzare dati genomici, stato di salute e biomarcatori per predire l’insorgenza di attacchi di cuore e altre condizioni di salute.

Lo smartphone video gioco Flappy Bird è stato rimosso da smartphone nel 2014 il suo creatore, Dong Nguyen, perché era troppo coinvolgente. Ma il programma di vita come una fonte di ispirazione per l’apprendimento profondo ricercatori.

Inoltre: l’Equità in AI, StarCraft Edizione

In particolare, International Business Machines scienziati di questa settimana ha presentato una ricerca su come le macchine possono imparare sempre i compiti, tra cui la riproduzione di Flappy Bird, il miglioramento, nel tempo, piuttosto che l’apprendimento di un livello di gioco e di arresto.

Conosciuto come lifelong learning, o apprendimento continuo, l’area è stata studiata per decenni, ma rimane una formidabile sfida di ricerca.

Oltre a offrire un nuovo e importante strumento per l’AI, il lavoro è qualcosa di una meditazione su ciò che significa per l’apprendimento sia in avanti e indietro nel tempo.

Flappy Bird è stato uno dei loro primi test. In questo gioco, dovete volare il piccolo animato uccello in modo sicuro attraverso una raccolta di pilastri. I ricercatori IBM definito ogni cambiamento nell’aspetto del gioco, come ad esempio l’altezza delle colonne, come un romanzo di attività. Reti neurali poi estrapolare da un compito all’altro massimizzare ciò che è già stato appreso nelle precedenti attività.

ibm-playing-flappy-bird-april-2019.png

IBM del lavoro con il MIT e Stanford University test peso di condivisione per la riproduzione di videogiochi, “Catcher” e “Flappy Bird.”

IBM, MIT, Stanford University.

×

ibm-giocare-flappy-bird-aprile-2019.png

Chiamato Meta-esperienza replay, o MER, il lavoro è un po ‘ un mash-up tra un paio di precedenti approcci in letteratura di reti neurali.

Il lavoro, imparare Ad Imparare, Senza Dimenticare, Massimizzando il Trasferimento E Riducendo al minimo le Interferenze, è stato scritto da un gruppo di IBM, MIT, Stanford University, composto da Matteo Riemer, Ignacio Casi, Robert Ajemian, Liu Miao, Irina Rish, Yuhai Tu, e Gerald Tesauro, ed è pubblicato su arXiv pre-server di stampa. La carta è stata presentata alla Conferenza Internazionale sull’Apprendimento Rappresentazioni, avvenuta nel mese di Maggio.

Il problema che si verifica nel continuo processo di apprendimento è stato studiato per decenni. È stata formulata dai ricercatori Gail Falegname e Stefano Grossberg nel 1987. Si chiama la stabilità plasticità dilemma. Un sistema di intelligenza artificiale, hanno scritto, deve essere “in grado di plasticità per imparare a conoscere nuove importanti eventi, ma deve anche rimanere stabile in risposta a irrilevante o spesso ripetuti eventi”.

In parole povere, secondo Riemer e il suo team, i pesi di una profonda rete di apprendimento deve essere sviluppato in un modo che mantiene ed estende quello che è ottimizzato in ogni punto nel tempo. L’obiettivo è quello di ridurre al minimo le interferenze, la distruzione di ciò che è stato imparato, e allo stesso tempo massimizzare l’apprendimento futuro, consentendo di pesi per cambiare sulla base di nuove informazioni.

Per farlo, gli autori mescolati insieme di due ceppi di ottimizzazione del peso: Una esperienza di replay, e uno chiamato Rettile.

Nel primo caso, esse si basano su un codice sviluppato da Facebook ricercatori David Lopez-Paz e Marc ‘ Aurelio Ranzato nel 2017, chiamato Gradiente di Memoria Episodica per l’Apprendimento Continuo, o GEMMA. GEMMA utilizza varie tecniche per impedire la cancellazione di un passato di pesi e garantire la stabilità.

Anche: Google AI naviga in “gamescape” per conquistare la teoria dei giochi

Rettile, invece, ha sviluppato lo scorso anno da Alex Nichol, Giosuè Achiam e Giovanni Schulman di OpenAI, si concentra su come portare avanti apprendimento in passato attività per l’apprendimento di nuovi compiti che vengono incontrati, una forma di trasferimento di apprendimento.

ibm-explores-transfer-interference-trade-off.png

IBM esplora la “stabilità” di plasticità dilemma”, e la fusione dei pesi attraverso il tempo.

IBM, MIT, Stanford University

×

ibm-esplora-transfer-interferenze-trade-off.png

La sfida di plasticità di stabilità è quello di conciliare passato e presente selezioni di peso. La chiave è che il gradiente, la procedura di ottimizzazione per ogni campione di dati, dovrebbe essere additivi. Si dovrebbe sempre portare a migliori selezioni di peso in qualsiasi punto nel tempo, non quelli che sminuire ciò che è stato sviluppato, né che tenere il peso sulla schiena miglioramento giù la linea.

Gli autori hanno deciso che GEMMA e Rettili sono limitati, nel senso che sono solo interessati con un senso del tempo.

GEMMA vuole preservare il passato, proteggendo il passato di pesi, di Rettili e vuole modificare i pesi solo al momento di nuovi esempi sono imparato. Ciò che è necessario, invece, sostengono Riemer e colleghi, è un concetto di simmetria, in cui il valore dei pesi è stato migliorato per misura, in entrambe le direzioni di tempo.

“Nel nostro lavoro cerchiamo di imparare una generalizzabile teoria circa il peso di condivisione che possono influenzare la distribuzione di pendenze non solo nel passato e nel presente, ma anche per il futuro.”

Inoltre: AI ain’t no alunno: DeepMind quasi tale scuola di alta matematica

E ‘ una questione di “allineamento” sfumature”, e quindi il peso condivisione”, scrivono, “attraverso esempi si pone [sic] sia in avanti e indietro nel tempo.”

“Vorremmo influenza del gradiente gli angoli di tutte le attività in tutti i punti nel tempo”, piuttosto che per un singolo punto nel tempo, l’attività di scrittura.

Per trovare una sorta di ideale gradient descent, “interleave” esempi del passato, con ogni nuovo esempio di dati, presi uno alla volta, e utilizzare una funzione obiettivo che ottimizza il gradiente di corrente e di esempi del passato.

Gli autori hanno testato il loro approccio su due differenti rete neurale test di benchmark. Uno è una versione del tradizionale “MNIST” set di dati di cifre scritte a mano, sviluppato dal National Institute of Standards and Technology. L’obiettivo è quello di identificare etichettato esempi di cifre scritte in una varietà di forme e attraverso permutazioni come la rotazione.

La seconda prova è il flappy bird test, utilizzando un rinforzo di apprendimento approccio, basato su un tipo di rete neurale conosciuto come un Profondo Q Rete, o DQN.

In entrambi i casi, gli autori citano una precisione superiore punteggi in relazione ai parametri di riferimento, soprattutto rispetto a Lopez-Paz e Ranzato è la GEMMA.

Anche: Google StarCraft II vittoria mostra AI migliora via diversità, invenzione, non riflessi

DQN dotate di MER, scrivono, “diventa un giocatore del Platino il primo compito quando si sta imparando il terzo compito” di Flappy Bird.

“DQN-MER espone il tipo di modalità di apprendimento attesi dagli esseri umani per questi giochi, mentre standard DQN fatica a generalizzare, in quanto il gioco cambia, e per conservare la conoscenza nel corso del tempo,” scrivono.

In cima a muoversi avanti e indietro, attraverso le sfumature, dal passato al futuro, ci sono un paio di elementi degni di nota in questo lavoro.

Per una cosa, le reti neurali accordo con il fatto che i successivi compiti sono differenti distribuzioni di dati, ciò che è noto come “non-stazionarietà.” Che rappresenta una sfida per le reti di generalizzare. A differenza di altre impostazioni, le reti neurali costruito in questo caso non hanno un esplicito segnale che ogni nuova attività è, infatti, di nuovo. Le regole del gioco cambiano e la rete, in maniera adatta.

Deve leggere

Che cosa è l’IA? Tutto il necessario per knowWhat è profondo apprendimento? Tutto il necessario per knowWhat è la macchina di apprendimento? Tutto il necessario per knowWhat è il cloud computing? Tutto quello che devi sapere

Cosa c’è di più, piuttosto che essere trattati in lotti, come è comune nella maggior parte delle reti neurali, ogni nuovo esempio dai dati è un unico esempio, trattati uno alla volta. Che ha importanti implicazioni per essere in grado di imparare da radi segnali di dati.

Due importanti domande rimangono per il lavoro. Uno è se la diversità di compiti in qualcosa di simile a Flappy Bird è abbastanza impegnativo. IBM Riemer risposto in una mail a ZDNet che porterà l’opera più diversi insiemi di attività nel corso del tempo.

“Siamo entusiasti di provare sui più ampi e diversi insiemi di attività in futuro,” dice Riemer.

Allo stesso tempo, egli sostiene la delicatezza dei compiti qui è prezioso. “Considerando sottile non stationarities in condizioni di ambiente può essere interessante e rivelatore come bene”, dice. “Quando non stationarities nell’ambiente sono molto gravi, si può anche rendere più facile per i modelli di individuarli. Come risultato, notando più sottili cambiamenti a volte può riflettere una più raffinata capacità di adattamento alle mutate condizioni ambientali.”

Secondo, il compito di Flappy Bird è un “giocattolo” del problema, piuttosto che una reale sfida nel mondo. Riemer dice il team ha l’obiettivo di allargare il suo lavoro per comprendere più in profondità le sfide in futuro. “Hanno recentemente esplorare ambienti che sono anche di più non stazionarie, sia in termini di contenere una grande quantità di ulteriori diversi “compiti” e in termini di avere un minor numero di esempi per ‘attività’.”

C’è un sacco da imparare da problemi semplici, dice Riemer. Allo stesso tempo, “l’interesse del nostro team di IBM, è certamente quello di testare i limiti di queste funzionalità e di costruire AI soluzioni che possono eventualmente essere utilizzati per risolvere problemi di business reali per i nostri clienti.”

Intelligenza Artificiale

AI e big data etica vs: Come per assicurarsi che la vostra intelligenza artificiale del progetto è la voce nel modo giusto

Il servizio clienti è pronto per una rivoluzione AI

L’intelligenza artificiale e il futuro della fotografia smartphone

IBM AI dimostrazione sufficiente per un quantum killer app?

IBM suscita polemica da condivisione foto di AI di riconoscimento facciale (CNET)

Le imprese non si capisce come AI cybersecurity strumenti di lavoro (TechRepublic)

Argomenti Correlati:

Big Data Analytics

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software