Google esplora AI misteriosa polytope

0
153

Alcune ulteriori indizi sono perdite sulla descrizione di due settimane fa di Google AlphaStar macchina sistema di apprendimento che compete nel video di gioco di StarCraft.

Un elemento chiave potrebbe essere il misterioso “polytope.”

Che cosa è un polytope? Un Euclidea figura geometrica di N dimensioni, di cui due-dimensionale poligoni tridimensionali e poliedri sono gli esempi familiari. Il polytope sta emergendo come un modo di pensare il paesaggio delle possibili soluzioni, in un gioco come StarCraft.

Inoltre: l’Equità in AI, StarCraft Edizione

Non c’è nessuna carta di sicurezza per AlphaStar, ma a seguito di Google blog post su programma il Gen. 24, indizi ha cominciato ad emergere.

Come accennato in un post a parte, la scorsa settimana, AlphaStar basa sul lavoro svolto da Google DeepMind gruppo, in particolare il ricercatore David Balduzzi e colleghi, riguardo a qualcosa che si chiama “Nash media”, dove più computer agenti di giocare uno contro l’altro, sono esaminati dalla rete neurale su più giochi. Che ritrovamenti di indagine diversi attributi che possono essere combinati per creare una sorta di lettore ideale costruito dai punti di forza dei vari agenti in quelli più giochi. L’esplorazione di giocatori, cosa di cui da Balduzzi e colleghi come “gamescape,” è espresso come correttamente un politopo.

google-2019-value-iteration-in-the-polytope.png

Come le politiche di un’intelligenza artificiale agente di navigare attraverso il “polytope” del valore di funzioni di apprendimento di rinforzo. I puntini blu si muove la politica assume il suo modo “ottimale la funzione di valore in rosso che vince la partita.

Google Cervello

Ora, Google ricercatori hanno offerto un altro esame del polytope, in due documenti rilasciati contemporaneamente alla fine della scorsa settimana, un edificio, alla prossima.

Anche: Google AI naviga in “gamescape” per conquistare la teoria dei giochi

La prima carta, Il Valore della Funzione Polytope in Reinforcement Learning, è stato scritto da Google Cervello Robert Dadashi, Adrien Ali Taïga, Nicolas Le Roux, Dale Schuurmans, e Marc G. Bellemare, con Taïga serve anche a Montreal MILA organizzazione per l’apprendimento automatico, e Schuurmans avere un appuntamento presso l’Università di Alberta. La carta è pubblicato su arXiv pre-server di stampa.

Ecco come il polytope opere in Dadashi & Co.’s studio. Il rafforzamento dell’apprendimento attività come AlpaStar spesso si basano sul calcolo di cosa futura ricompensa sarà da prendere una determinata azione per un determinato stato di cose nel gioco. Che stato-azione di valutazione è noto come il valore della funzione. Trovare la giusta funzione può essere quello che consente all’agente di vincere la partita.

Dadashi mostra la carta che tutte le funzioni di valore che può derivare da una serie di criteri diversi che un agente può utilizzare il modulo correttamente un politopo. Ciò è importante, perché poi si può vedere come le diverse politiche di “spostare” attraverso il polytope, fino a quando atterrano su un “ottimale” la funzione del valore che vince la partita. Il valore ottimale funzione è ubicato in un determinato angolo di polytope, in modo da vincere una partita in un certo senso, diventa una questione di navigare in polytope verso l’angolo destro il modo in cui si può camminare attraverso una stanza alla ricerca di qualcosa di nascosto in un angolo.

È facile vedere come questo lavoro potrebbe informare Balduzzi & Co.’s Nash media: navigazione polytope per funzioni di valore potrebbe essere sostituito da navigare il polytope ideale per i giocatori di StarCraft.

google-2019-polytopes-of-markov-decision-process.png

Più Mdp, o “Processo di Decisione di Markov, la tipica strategia di ricerca per la risoluzione di un rinforzo di apprendimento scenario, la produzione di più polytopes.

Google Cervello/Google DeepMind

Secondo Google la carta prende il polytope di funzioni di valore e la utilizza per il piombo di qualcosa che potrebbe essere più profondo: il problema delle “rappresentazioni.”

Anche: Google StarCraft II vittoria mostra AI migliora via diversità, invenzione, non riflessi

Un tema chiave in AI da inizio se è una macchina in grado di “rappresentare” il suo mondo. Una cosa è una macchina di apprendimento del sistema per risolvere un problema, è un’altra cosa ci sia di “intelligenza” in ciò che fa. La capacità di una rete neurale non solo per fare i compiti, ma per rappresentare gli aspetti del mondo che la circonda in un modo che porta a sofisticati astrazioni sul mondo, è quello che in teoria distingue IA da un semplice sistema meccanico.

Nella seconda carta, Una Prospettiva Geometrica Ottimale Rappresentazioni per l’Apprendimento per Rinforzo, Dadashi e gli altri autori sono unite da un altro Google Cervello ricercatore, Pablo Samuel Castro, e due ricercatori DeepMind, Dabney e Tor Lattimore, Oxford U. s Chiara Lyle.

Questa volta, Dadashi e colleghi dicono che il valore di funzioni che sono gli angoli di che polytope sono “contraddittorio funzioni di valore” che i mezzi sono quelli che sono in corso di condurre a una deterministico serie di azioni per vincere la partita. Trovare il contraddittorio funzioni di valore richiede una rappresentazione che “approssima” un dato valore della funzione. Una rappresentazione in questo caso è una combinazione di una “funzione vettoriale,” un vettore che rappresenta un dato stato in gioco, e un peso vettore che è regolabile attraverso la parte posteriore familiare-tecnica di propagazione. Sempre più vicino all’angolo in cui il valore della funzione prevede lo spostamento attraverso il polytope in un modo che riduce al minimo il tasso di errore tra il ravvicinamento e l’altra funzione di valore.

Anche: Google riflette le carenze di apprendimento automatico

Questo ha due importanti risultati. Uno, rende l’apprendimento di rinforzo più forte con l’impostazione di più “i compiti ausiliari” diretto di agente durante il corso del gioco, piuttosto che un unico grande funzione di ricompensa alla fine.

E più importante, la risoluzione di tali compiti, rende la rappresentazione meglio. Come gli autori, “un agente che prevede AVFs, da soli o in concomitanza con qualche obiettivo primario, dovrebbe sviluppare una migliore rappresentazione.”

google-2019-the-represenations-of-ai.png

La rappresentazione delle quattro camere di problema. L’ultimo, sulla destra, predisposto utilizzando il “contraddittorio funzioni di valore”, mostra “bellissima struttura” rispetto agli altri, dicono che Google ricercatori.

Google Cervello/Google DeepMind

Gli autori hanno testato il loro lavoro comune AI task, “le quattro camere di dominio”, in cui un agente ha per spostarsi da una stanza in una griglia bidimensionale mondo, che si muovono intorno mura e andando dentro e fuori di ingressi, fino a quando si arriva ad un angolo designato come vittoria. Essi confrontare come rappresentazioni trovato con l’altra funzione del valore di confrontare le rappresentazioni inventato a caso. Gli autori scrivono che la scelta casualmente rappresentazioni “di catturare il generale distanza alla meta, ma poco altro.” Al contrario, “la rappresentazione da AVF [contraddittorio funzione di valore] … mostre bella struttura, tra cui cose come “punti focali” e un “bias verso l’obiettivo-camera.”

Deve leggere

‘IA è molto, molto stupido”, dice Google AI leader (CNET)Come ottenere tutti Google Assistente nuove voci di adesso (CNET)Unificata di Google IA divisione di un chiaro segnale di AI del futuro (TechRepublic)Top 5: le Cose da sapere riguardo AI (TechRepublic)

“Nel complesso, i nostri risultati dimostrano che l’AVF metodo può imparare sorprendentemente ricco di rappresentazioni,” scrivono.

Niente di tutto questo immediatamente riguarda AlphaStar, naturalmente. Ma suggerisce un nuovo, più elevato livello di astrazione nella ricerca di politiche per risolvere un gioco da prima pensare bene a come il computer rappresenta ciò che le sue scelte sono.

Attendiamo, quindi, di vedere il polytope popping up più e più in ricerca Google e degli altri. Potrebbe essere misterioso, in un certo senso, ma sembra funzionare nella pratica, almeno per alcuni dei compiti, e si apre una nuova strada per la comprensione delle rappresentazioni. Inoltre, amplia il dibattito su ciò che queste rappresentazioni media quanto a intelligenza reale.

Precedente e relativa copertura:

Che cosa è l’IA? Tutto quello che devi sapere

Un esecutivo a guida di intelligenza artificiale, machine learning e generale AI alle reti neurali.

Cos’è il deep learning? Tutto quello che devi sapere

Il lowdown su deep learning: da come si relaziona con il più ampio campo di machine learning a come iniziare con esso.

Che cosa è macchina di apprendimento? Tutto quello che devi sapere

Questa guida spiega in cosa consiste la macchina di apprendimento, di come esso è legato all’intelligenza artificiale, come funziona e perché è importante.

Che cos’è il cloud computing? Tutto quello che devi sapere su

Un’introduzione al cloud computing destra, dalle nozioni di base fino a IaaS e PaaS, ibrido, public e private cloud.

Storie correlate:

Google AI naviga in “gamescape” per conquistare la teoria dei giochi
Questo è ciò che l’IA sembra (come disegnato dall’IA)
Google DeepMind team leader 3D game dev piattaforma
DeepMind AI punti i primi segni della malattia dell’occhio

Argomenti Correlati:

Google

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software