ITALIANO

AI pioneer Sejnowski dice che è tutto merito del gradiente

172

Alla fine del calcestruzzo piazza che costituisce il cortile del Salk Institute di La Jolla, in California, c’è un tre-cento-cinquanta-caduta del piede verso l’Oceano Pacifico.

A volte le persone ad esplorare che cadono dall’alto in parapendio. Se sono meno avventurosa, si può scendere a piedi lungo un tortuoso sentiero che costeggia la scogliera tutta la strada fino in fondo.

È un buon posto da cui partire per riflettere sullo strumento matematico chiamato “stocastico gradient descent”, una tecnica che è oggi il cuore del machine learning forma di intelligenza artificiale.

Terry Sejnowski ha esplorato il gradiente di discesa per decenni. Sejnowski, che porta una squadra a Salk studiare che cosa è chiamato neuroscienze computazionali, è stato un mentore per Geoffrey Hinton di Google, uno dei tre vincitori di quest’anno ACM Turing award per i contributi per l’informatica nella macchina di apprendimento. Scrive regolarmente per condividere idee con Hinton co-destinatari, Yann LeCun di Facebook e Yoshua Bengio di Montreal MILA istituto per l’apprendimento automatico.

terry-sejnowski.jpg

Questa settimana, mi sono seduto con Sejnowski nel suo ufficio accogliente, foderato al soffitto con libri, all’interno del calcestruzzo bungalows a Salk, di una vasta gamma di chat su A. I. Una intrigante tema si alzò per uscire, l’idea che l’intero A. I. campo è solo all’inizio per capire il profondo fenomeno di gradiente di discesa.

“Quello che i matematici stanno scoprendo è che tutte le tue sono sbagliate circa stocastico gradient descent,” Sejnowski, ha detto.

Anche Google: la DeepMind chiede che cosa significa per l’AI a fallire

Per capire il perché richiede una breve lezione di storia da Sejnowski. E ‘ adatto per il compito, autore di una superba libro sull’argomento, che è parte di memorie e di parte, le lezioni di scienze, chiamato Deep Learning Rivoluzione.

Sejnowski ha ricordato come l’A. I. aveva progredito dalla sua nascita nel 1950. Le “regole di base” ricercatori in A. I., di persone che hanno approcci basati sulla logica e la manipolazione di simboli, provato per decenni a fare il loro lavoro l’approccio, e non è riuscito. Il loro fallimento della camera negli anni ottanta e novanta per un tranquillo corso dalla scuola alternativa di pensiero, il “connectionists,” tra cui Sejnowski e Hinton e LeCun e Bengio. Il connessionismo, raggiunto splendido successo nel Naughts, è stato ribattezzato apprendimento profondo.

Louis Kahn plaza del Salk Institute di La Jolla, in California, si affaccia su di una tre-cento-e-cinquanta-piede a picco sul mare.

Tiernan Ray per ZDNet.

img-8913.jpg

La differenza tra la riuscita di logica e sistemi di apprendimento profondo è di scala. Il connectionists’ reti neurali, a differenza delle regole di base, la logica di approccio, sono stati in grado di scalare fino a più grandi e più grandi problemi di computer sempre più potenti e i dati più abbondanti. Regole non scala, ma l’apprendimento da dati di fatto. Il resto è storia, almeno per Sejnowski.

“Vedi, la gente che è andato per logica aveva cinquant’anni per mostrare che non scala. E ora, abbiamo avuto trent’anni, dagli anni ottanta ad oggi, per mostrare che esso [il connessionismo] scala.

“Qui, almeno con alcuni modelli, con il riconoscimento di pattern, con il rafforzamento dell’apprendimento e così via, abbiamo qualcosa che scala,” ha detto.

Mentre i big data e l’aumento calcolare reso tutto questo possibile, nulla avrebbe ridimensionato, se non fosse per la misteriosa realtà sottostante del gradiente.

“Si scopre, sembra come se lo stocastico gradiente di discesa è la magia, la salsa segreta”, ha detto.

“C’è qualcosa di speciale su di esso.”

L’errore di una rete neurale può essere visto come una valle in cui si cerca di trovare il punto più basso, come in questa visualizzazione, da Li et al., 2018. Trekking giù valle, cercando il punto più basso è conosciuto in macchina apprendimento stocastico gradiente di discesa. Dopo vari punti in discesa verso un piccolo errore, si può ottenere intrappolati in un falso punto di successo, un minimo locale, o un punto di sella, come si chiamano.

Li et al., 2018: https://arxiv.org/pdf/1712.09913.pdf

il gradiente.png

Gradient descent è un approccio di ottimizzazione per le reti neurali. Una rete neurale è ciò che sono chiamati pesi che decidere quanto ogni singolo componente di una rete neurale deve contribuire alla risposta finale che è generato dalla rete.

Per trovare la giusta miscela di pesi, la rete neurale regola quei pesi per la ricerca di un paesaggio di coordinate geometriche, che assomiglia a una valle. La rete neurale ripetutamente regola il peso in risposta ai dati al fine di trovare un percorso dall’alto della valle, che rappresenta il più grande errore, il punto più basso della valle, che rappresenta la quantità minima di errore di rete neurale in grado di raggiungere.

Se fosse così facile come saltare giù dalla scogliera, a La Jolla, questo processo sarebbe una semplice questione per il computer. Invece, stocastico gradiente di discesa è come vagare attraverso un uncharted montagna, cercando di trovare il modo più veloce verso il basso.

A causa del gradiente di discesa è solo un costrutto matematico, un modello geometrico di ciò che sta succedendo nella ricerca di una soluzione, l’intero campo di A. I. è solo cominciando a capire quanto il mistero di quella ricerca, Sejnowski sostiene.

Anche: Google esplora AI misteriosa polytope

Negli anni ’80, la navigazione che il gradiente è stato deriso da MIT scienziato Marvin Minsky, come pura arrampicata.” (L’inverso della pendenza in discesa è come ascendente per un summit con la massima precisione.) In Minsky, era un insignificante di ricerca, niente come il vero apprendimento e nulla in rappresentanza di intelligenza reale. Attacchi simili sono lanciate contro di apprendimento profondo di questa giornata.

Ma questi attacchi non riescono a capire che cosa è venuta a fuoco molto lentamente, come una maggiore potenza di calcolo rivela aspetti del gradiente, Sejnowski sostiene.

“Ecco quello che abbiamo scoperto, e che Minsky non avrebbe mai immaginato”, ha detto, “perché ha vissuto in basso-dimensionale universo di problemi che sono così piccole che non si può davvero esplorare cosa succede quando si dispone di un vasto spazio con un miliardo di parametri.”

Ciò che è stato scoperto è che il modo di pensare gradiente di discesa è generalmente sbagliato.

In semplice rete neurale ricerche, di geometria, di appena due o tre dimensioni, la ricerca di quel posto in fondo alla valle è pieno di sbagli, chiamato spurie minimi locali, come una cresta lungo la via che da solo sembra essere il fondovalle.

Anche: LeCun, Hinton, Bengio: AI cospiratori conferito prestigioso premio Turing

Deep learning è stato in grado di superare quei minimi locali tramite una combinazione di grandi insiemi di dati, più livelli di rete, e le tecniche come il “drop out”, dove i pesi sono eliminate dalla rete.

Tuttavia, Sejnowski punto è che all’interno della trappola di minimi locali è qualcosa di potenzialmente molto potente. Come la matematica diventa più complesso con un computer più potente di modelli, tutti coloro che sbagli iniziare a formare qualcosa di più significativo.

“Se avete un milione di dimensioni, e si sta scendendo, e si arriva a una cresta o qualcosa del genere, anche se la metà le dimensioni stanno andando in su, l’altra metà sta andando giù! Così puoi sempre trovare un modo per uscire”, spiega Sejnowski. “Non si può mai ottenere intrappolati” su un crinale, almeno, non in modo permanente.

In questa vista, il classico statistica trappola di “over-fitting di dati, che possono portare ad un minimo locale, è in realtà una benedizione sotto mentite spoglie.

“Si scopre che la parametrizzazione non è un peccato in più dimensioni spazi. In realtà ti dà gradi di libertà che è possibile utilizzare per l’apprendimento” Sejnowski, ha detto.

Anche qualcosa di semplice come la regressione lineare, Sejnowski, ha detto, che non è la macchina di apprendimento di per sé, ma semplicemente elementari statistiche, assume una strana forma un gradiente di potenzialmente infinita scala.

“Si scopre che anche la regressione — qualcosa che è di tipo elementare, un libro chiuso, come si forma una linea retta attraverso una serie di punti — si scopre quando hai a che fare con una milioni dello spazio-dimensionale, è molto più interessante il problema; è come se, in realtà si può montare ogni singolo punto con una linea retta, fatta eccezione per un numero molto piccolo.”

Deve leggere

Che cosa è l’IA? Tutto il necessario per knowWhat è profondo apprendimento? Tutto il necessario per knowWhat è la macchina di apprendimento? Tutto il necessario per knowWhat è il cloud computing? Tutto quello che devi sapere

Il gradiente è leader di quei matematici che studiano apprendimento profondo verso intuizioni che un giorno la forma di una teoria dell’apprendimento automatico, Sejnowski è fiducioso.

“È la geometria di questi spazi di dimensione, in termini di come sono organizzati, in termini di modo che si ottiene da un luogo all’altro dello spazio.

“Tutte queste cose puntare verso qualcosa che tende ad essere molto ricco matematicamente. E una volta che abbiamo capito — stiamo iniziando a esplorare — saremo noi a venire ancora di più, in modo incrementale più efficienti modi di esplorare questo spazio di queste architetture.”

Per la corrente di machine learning per la ricerca, vi è un’immediata conseguenza: roba che è più preciso è meno desiderabile, non di più.

“Se si utilizza un amatore di tecnica di ottimizzazione che si fa più preciso, non funziona così”, osserva.

“Quindi c’è qualcosa di speciale su di una tecnica di ottimizzazione che è rumoroso, dove si sta tenendo nella mini-serie e non sta andando giù per la perfetta sfumatura, ma scendendo in una direzione che è solo un approssimativo in discesa.”

Il campo è “appena iniziando a esplorare i misteri del gradiente di discesa, Sejnowski, ha detto. “Abbiamo qualcosa che funziona, e in realtà noi non sappiamo il motivo per cui funziona.

“Una volta noi, saremo in grado di costruire un ancora più efficiente la macchina che sarà molto più potente.”

Intelligenza Artificiale

LG per sviluppare robot per ristoranti

Scala Agile, adottando AI: Come Intel sta facendo una parte strategica del business

Uber contro Lyft: Come i rivali approccio cloud, l’intelligenza artificiale, machine learning

Google tira la spina AI etica di gruppo solo poche settimane dopo la nascita

Game of Thrones: AI predice chi vive e chi muore (CNET)

Come fare AI etica una priorità alla vostra azienda (TechRepublic)

Argomenti Correlati:

Big Data Analytics

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software