Google DeepMind gamifies memoria con il suo ultimo AI lavori

0
24

Tiernan Ray

Da Tiernan Ray

| 2 dicembre, 2019 — 22:10 GMT (22:10 GMT)

| Argomento: Intelligenza Artificiale

deepmind-rl-memory-tasks-nov-2019.png

La DeepMind utilizzare ambienti simulati per testare il comportamento di un “rafforzamento dell’apprendimento” è in grado di completare i compiti per ricevere dei premi.

DeepMind

Sai quando hai fatto qualcosa di sbagliato, come mettere un vetro troppo vicino al bordo del tavolo, solo accidentalmente bussare fuori dal tavolo, in un momento successivo. Nel corso del tempo, si accorge di un errore, anche prima del disastro.

Allo stesso modo, sai che negli anni in cui hai fatto la scelta sbagliata, come la scelta di diventare manager presso Best Buy, piuttosto che un pro-giocatore di pallone, l’ultimo dei quali avrebbe fatto molto di più soddisfatte.

Il secondo problema, come un senso di conseguenza si sviluppa su lunghi tratti, è oggetto di una recente opera di Google DeepMind unità. Si chiedono in che modo si può creare qualcosa nel software che è simile a ciò che le persone fanno quando non capire le conseguenze a lungo termine delle proprie scelte.

DeepMind la soluzione è un profondo programma di apprendimento che chiamano “il Valore Temporale di Trasporto.” TVT, per abbreviazione, è un modo per inviare lezioni dal futuro, se volete, per il passato, per informare azioni. In un certo senso, è “gamifying” azioni e di conseguenza, mostrando che può essere un modo per fare azioni in un momento di obbedire alla probabilità che si sviluppi successivi per segnare punti.

Non sono creazione di memoria, di per sé, e non ricreare ciò che succede nella mente. Piuttosto, come hanno messo, si “offrono un meccanicistica conto di comportamenti che possono ispirare i modelli in neuroscienze, la psicologia e l’economia comportamentale.”

deepmind-reconstructive-memory-agent-nov-2019.png

La “Memoria Ricostruttiva Agente” utilizza più obiettivi di “imparare” per memorizzare e recuperare i record del passato, stati di cose, come una sorta di memoria.

DeepMind

Gli autori dello studio, “Ottimizzazione del comportamento di un agente su lunghe scale temporali da trasporto di valore”, che è stato pubblicato il 19 novembre in Natura Rivista Nature Communications impronta, sono Chia-Chun Hung, Timothy Lillicrap, Josh Abramson, Yan Wu, Mehdi Mirza, Federico Carnevale, Arun Ahuja, e Greg Wayne, tutti con Google DeepMind unità.

Il punto di partenza per il gioco non è qualcosa che si chiama “a lungo termine la cessione del credito”, che è la capacità delle persone di capire l’utilità di un’azione che si basa su quali possono essere le conseguenze di tale azione a lungo nel futuro — il Best Buy manager-versus-atleta esempio. Questo ha una ricca tradizione in molti campi. L’economista Paul Samuelson ha esplorato il fenomeno di come le persone fanno scelte con conseguenze a lungo termine, che cosa ha chiamato “scontati” utilità di un approccio, a partire dagli anni 1930. E Allen Newell e Marvin Minsky, due luminari della prima ondata di AI, sia esplorata.

Naturalmente, AI programmi hanno una forma di azione, che si basa su azioni e conseguenze, chiamato “apprendimento di rinforzo,” ma ha sever limitazioni, in particolare, il fatto non può fare correlazioni su lunghe scale di tempo il modo in cui sembra che le persone stanno facendo con a lungo termine la cessione del credito.

“Gli esseri umani e gli animali evidenza comportamenti che state-of-the-art (model-free) di profondità RL può ancora simulare comportamentale,” scrivere Appeso e colleghi. In particolare, “molto il comportamento e l’apprendimento avviene in assenza di ricompensa immediata o diretta feedback” negli esseri umani, sembra.

deepmind-tvt-learns-better-nov-2019.png

DeepMind versione di rinforzo di apprendimento che utilizza il “valore temporale di trasporto” per inviare un segnale di ricompensa indietro, a forma di azioni, fa meglio rispetto a forme alternative di reti neurali. Qui, il “TVT” il programma è rispetto per “Long-memoria a breve termine,” o LSTM, reti neurali, con e senza memoria, e ricostruttiva in memoria dell’agente.

DeepMind

DeepMind gli scienziati hanno fatto ampio uso di rinforzo di apprendimento per la loro massiccia AI progetti come il AlphaStar programma di centrare la vittoria a Starcraft II, e il AlphaZero programma prima che trionfa al go e scacchi e shoji. Gli autori del nuovo lavoro adattare RL in modo che si prende i segnali da lontano nel futuro, il che significa, più tempo passi in avanti in una sequenza di operazioni. Utilizza i segnali a forma di azioni all’inizio dell’imbuto, una sorta di anello di retroazione.

Anche: Google StarCraft II vittoria mostra AI migliora via diversità, invenzione, non riflessi

Hanno fatto un gioco di esso, in altre parole. Prendono mondi simulati, mappe delle camere, come si vede nei video giochi come Quake e Doom, il tipo di ambiente simulato che è diventato familiare nella formazione di agenti artificiali. L’agente interagisce con l’ambiente, per esempio, l’incontro quadrati colorati. Molte sequenze successive, l’agente sarà ricompensato, se si può trovare la sua strada a quella stessa piazza, che utilizza un record precedenti di esplorazione, che agisce come una memoria.

Come hanno fatto è un affascinante adattamento di qualcosa creato a DeepMind nel 2014 da Alex Graves e colleghi hanno chiamato il “neurale macchina di Turing.” NMT è stato un modo per fare una ricerca al computer registri di memoria basata non su esplicita istruzioni ma si basa semplicemente sul fatto che il gradiente di discesa nel profondo di una rete di apprendimento — in altre parole, imparare la funzione per memorizzare e recuperare i dati specifici.

Gli autori, Appeso e colleghi, oggi l’approccio NMT e, in un certo senso, bullone sul normale RL. RL in cose come AlphaZero cerca spazi di potenziali ricompense per “imparare” via gradiente di discesa, una funzione di valore, come si chiama, una massima di sistema di profitti. Il valore della funzione, quindi, informa la costruzione di una politica che dirige le azioni che il computer prende come progredisce attraverso i membri del gioco.

Al che, gli autori aggiungere una capacità RL programma per recuperare i ricordi, i record di azioni passate come incontrare il quadrato colorato in precedenza. Questo si chiama la “Memoria Ricostruttiva Agente”. La RMA, come si chiama, fa uso di tale NMT possibilità di memorizzare e recuperare i ricordi di gradiente di discesa. Per inciso, rompere un nuovo terreno qui. Mentre altri approcci hanno cercato di utilizzare la memoria di accesso per aiutare a RL, questa è la prima volta che scrivi, che il cosiddetto ricordi di eventi passati sono “codificati.” Che si riferisce al modo in cui l’informazione è codificata in un generativa di rete neurale, come un “variational auto-encoder,” un approccio comune dell’apprendimento profondo che sta alla base di cose come il “GPT2” modello di lingua che OpenAI costruito.

Inoltre: non abbiate Paura profonda falsi: OpenAI la macchina scrive come insensatamente come un chatbot parla

“Invece di propagare le sfumature in forma di rete, delle rappresentazioni, la RMA abbiamo usato la ricostruzione obiettivi al fine di garantire che le informazioni pertinenti siano codificati,” è come gli autori descrivono.

Il pezzo finale del puzzle è che quando un’attività non portare a future ricompense, la TVT rete neurale, quindi invia un segnale per i di azioni del passato, se si vuole, definendo le azioni sono migliorate. In questo modo, il tipico RL funzione di valore viene addestrato a lungo termine la dipendenza tra le azioni e la loro utilità futura.

vedi anche

Artificial intelligence in the real world: What can it actually do?

Intelligenza artificiale nel mondo reale: che Cosa può realmente fare?

Quali sono i limiti dell’IA? E come si fa a passare dalla gestione di punti di dati per via parenterale AI nell’impresa?

Leggi Di Più

I risultati, che mostrano, battere approcci tipici di RL che si basano sul “lungo la memoria a breve termine,” o LSTM reti. Significato, la DeepMind combo di RMA e TVT batte il LTSMs, anche quelli LSTMs che fanno uso di memoria di archiviazione.

È importante ricordare che questo è tutto un gioco, e non un modello di memoria umana. Nel gioco, DeepMind RL agente operativo, in un sistema che sfida la fisica, in cui eventi futuri che guadagnare una ricompensa inviare un segnale di un ritorno al passato per migliorare, o di “bootstrap”, azioni intraprese in precedenza. È come se il “Futuro” potrebbe tornare al college-età di sé e dire, Prendere questa strada e diventare un pro-giocatore di pallone, io mi ringrazierai più tardi.”

Un approccio, non è indicato dagli autori, che potrebbe rendere tutto questo più rilevante del pensiero umano, sarebbe quello di mostrare come TVT in un qualche tipo di trasferire l’apprendimento. Significato, si può imparare ciò che accade essere utilizzato nel nuovo, invisibile attività totalmente diversa impostazione.

Gli autori concludono con il riconoscere che questo è un modello di un meccanismo, e non necessariamente rappresentativa dell’intelligenza umana.

“La spiegazione completa di come risolvere i problemi e di esprimere coerenti comportamenti più lunghi spazi di tempo, rimane un mistero profondo,” scrivono, “su cui il nostro lavoro solo fornisce una visione.”

E, tuttavia, ritengono che il loro lavoro può contribuire a esplorare i meccanismi che sottostanno anche se: “Ci auguriamo che meccanismi cognitivi approccio alla comprensione inter-temporale scelta—scelta e le preferenze sono separate da una rigida attualizzazione del modello ispireranno modi per andare avanti.”

Argomenti Correlati:

Big Data Analytics

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software

Tiernan Ray

Da Tiernan Ray

| 2 dicembre, 2019 — 22:10 GMT (22:10 GMT)

| Argomento: Intelligenza Artificiale