No, questo l’AI non può finire la tua frase

0
35

Google DeepMind, i lavori di miglioramento AI
ZDNet Tiernan Ray dice a Karen Roby su ciò che Google DeepMind sta facendo per migliorare l’IA e come gli esseri umani possono giocare un ruolo più importante nel determinare il successo dal fallimento di quanto inizialmente pensato. Leggi di più: https://zd.net/2VYP0oj

L’hype intorno artificial intelligence ha ottenuto in modo fuorviante che la deflazione è diventato un sottotesto di alcune attività di ricerca nel campo.

Prendiamo, per esempio, una sottilmente feroce report messo fuori questa settimana dell’Allen Institute for Artificial Intelligence e Paul Allen School of Computer Science presso l’Università di Washington. Ricercatore Rowan Zellers e colleghi di follow-up di lavoro, lo scorso autunno, che hanno mostrato di saper ceppo alcuni dei migliori elaborazione del linguaggio naturale di reti neurali con un gruppo di stupidi in lingua inglese le frasi.

Nel nuovo lavoro, aumentano la pressione per mostrare lo stato dell’arte dei modelli di linguaggio ancora non riesco a ragione correttamente su ciò che frase dovrebbe seguire un altro.

Hanno anche prendere un colpo alla scarsa copertura giornalistica della disciplina. Zellers e colleghi di notare che un articolo del New York Times da novembre strombazzato che Google “Bert” in linguaggio naturale di rete neurale è in grado di battere la loro sfida originale. “Infine, una Macchina in Grado di Finire la Tua Frase,” ha titolato che i Tempi di lavoro.

Bene, a quanto pare non. In questo nuovo rapporto, il Zellers team mostrano che, venendo fuori con la frase completamenti che sono sempre più assurda, possono ingannare anche il povero Bert in una risposta sbagliata.

allen-institute-hellaswag-test-illustration-may-2019.png

Un linguaggio naturale e di inferenza attività che Google Bert e altri modelli di linguaggio costantemente a fallire: scegliere la seconda frase che logicamente segue un primo, rispondendo correttamente ad una domanda da Wikihow.

Allen Institute for Artificial Intelligence

“Human performance è superiore al 95%” durante i test sul completamento di frasi, report, “mentre in generale il modello di prestazione è al di sotto del 50% per ogni modello,” tra cui Google Bert.

“L’attività sottostante rimane irrisolto,” scrivono, il significato, il compito di comprendere il linguaggio naturale di inferenza, la possibilità di dedurre una cosa dall’altra il modo in cui gli esseri umani fanno.

Gli autori scrivono che il loro lavoro mostra Bert e cose di questo tipo non sono la formazione di qualsiasi “robusto buon senso ragionamento”. Ciò che si sta effettivamente facendo è il mastering di un particolare insieme di dati, cosa che loro chiamano “rapid superficie studenti” — raccogliere spunti come i tratti stilistici.

Infatti, Zellers e società di andare più lontano, teorizzando una dura strada per l’apprendimento di tale ragionamento. La relazione propone che se uno sempre più ratchets la difficoltà di tali set di dati a moncone ogni nuova generazione del modello di lingua che Google o chiunque altro può proporre, una specie di corsa agli armamenti ne potrebbe derivare. Il potenziale risultato è che si potrebbero prendere 100.000 anni di una unità di elaborazione grafica o GPU, per raggiungere “umano” accuratezza del test.

Inoltre: Perché AI segnalazione di così brutto?

“Estrapolando da un esponenziale fit suggerisce che il raggiungimento di umani a livello di prestazioni sul nostro set di dati richiederebbe 109 GPU ore, o 100k anni, a meno che non algoritmica di miglioramenti,” scrivono.

Anche il titolo del nuovo lavoro, pubblicato su arXiv pre-server di stampa, implica una certa insofferenza per la campagna pubblicitaria: “HellaSwag: Può una Macchina Davvero Finire la Tua Frase” — nota il corsivo!

HellaSwag è la nuova versione del “Swag” test dal mese di agosto. Swag sta per “Situazioni di Contraddittorio Generazioni.” Si tratta di un insieme di completamento della frase attività che è stato progettato per essere difficile per la migliore elaborazione del linguaggio naturale tecnologia, come Bert.

In questo originale libro, gli autori hanno preso i video dal Web e ottenuto umano “folla di lavoratori” per scrivere due didascalie, uno per uno prima e uno per un secondo fotogramma del video, fotogrammi che di seguito uno dopo l’altro.

La sfida di modelli di linguaggio come Bert era quello di selezionare quale delle alternative proposte per la seconda didascalia era più logico, come un seguito del primo, in forma di domanda a risposta multipla.

Per rendere più difficile, Zellers & Co. farcite umano didascalia tra tre supplenti che sono stati generati da una rete neurale.

allen-institute-hellaswag-example-may-2019.png

Un esempio di risposta a una domanda che il computer in modo affidabile fumble. Gli autori hanno postulato Bert è il ritiro di parole sulla tecnologia quando si sceglie la risposta sbagliata, la risposta d, in rosa, contro la risposta giusta, la risposta c.

Allen Institute for Artificial Intelligence.

Per esempio, se la prima didascalia recita: “La signora dimostra il confezionamento di bomboniere utilizzando i suoi piedi” ed è seguito da un sostantivo, “La signora” una corretta secondo la didascalia, scritta da esseri umani, sarebbe “taglia il foglio di carta con le forbici.” Fuorviante didascalia, generati dal computer, sarebbe, “prende i dolci e la si continua a parlare alla telecamera.”

Zellers e società di selezionare i migliori fuorviante risposte da trovare quelli che sono più reale e apparente, un processo che chiamano “contraddittorio filtro.” Utilizzando un gruppo di reti neurali, continuano a generare didascalie fino a quando tali reti neurali non può più dire la differenza tra ciò che è umano-scritto didascalia e ciò che è generato al computer.

Con una serie di frasi in mano, hanno sfidato Bert e gli altri modelli per scegliere la frase che è la più logica, secondo la didascalia, umana generata.

Anche: OpenAI ha un inane testo bot, e ho ancora un lavoro di scrittura

Essi in sostanza, testo generato con una rete neurale per ingannare una rete neurale.

Come hanno messo, “gettare il più noto generatore (GPT) e il più noto discriminatore (BERT – Grande), abbiamo fatto un set di dati che è contraddittorio, non solo a BERT, ma per tutti i modelli abbiamo accesso.”

C’è una sorta di poetica bellezza nell’approccio, se hai mai visto il inane sciocchezze generato da un linguaggio naturale modello come OpenAI “GPT.” (Essi, infatti, utilizzato GPT in HellaSwag per generare le frasi fuorvianti.)

Nella nuova carta, HellaSwag — il nuovo prefisso sta per “di più Fine, Più Contesti, e Basso-Shot Attività” — Zellers e colleghi aggiunto per la prova originale con la scelta di frase-risposta esempi da Wikihow, il sito che le risposte alle domande comuni.

Deve leggere

Che cosa è l’IA? Tutto il necessario per knowWhat è profondo apprendimento? Tutto il necessario per knowWhat è la macchina di apprendimento? Tutto il necessario per knowWhat è il cloud computing? Tutto quello che devi sapere

Scoprono che Bert è molto peggio a scegliere quali sono le frasi sono una risposta a Wikihow domande. Dato un Wikihow attività, come ad esempio cosa fare se si è alla guida, e un semaforo rosso, Bert e altri modelli di pick risposte errate, come “stop per non più di due secondi.” Infatti, Bert sceglie la risposta giusta solo il 45% del tempo su questi test.

Quello che sta succedendo in tutto questo? Zellers e colleghi, la frustrazione di Bert su questo nuovo test, e mostra come sia superficiale, un sacco di apprendimento della lingua.

Bert e modelli come “ELMo”, sviluppato da Allen Institute, sono “il ritiro di set di dati specifiche di tipo distributivo dei pregiudizi”.

Gli autori del test come questi sistemi linguistici fare quando si striscia via il “contesto”, cioè la prima didascalia, o, per Wikihow, la domanda. Essa non pregiudica Bert performance molto, riuscirono a trovare. Bert e ELMo e il resto, in altre parole, non sono proprio utilizzando la prima parte, sono solo clueing per gli aspetti stilistici della seconda parte.

“Profonda metodi spesso vengono ingannati da lessicale falsi amici,” scrivono.

Il libro si conclude con una sorta di chiamata alle armi per una corsa agli armamenti, un sistema di “evoluzione di parametri di riferimento,” che permetterà di continuare a lanciare più sofisticati risposte sbagliate a modelli di linguaggio per mantenere intervento le loro capacità di gioco, il compito è semplicemente trovare superficiale modelli.

Ciò che manca, però, è una capacità umana di “astratto, lontano dal linguaggio”, e invece “modello del mondo uniti,” gli autori scrivono.

Per ora, quindi, anche in un ambiente controllato, no, una macchina non può davvero finire la tua frase.

Intelligenza Artificiale

Xilinx affina AI chip di strategia: non È solo la rete neurale

Intel Mobileye capo lamenta il tweaking AI colloqui fino MaaS, andando oltre LIDAR

SoftBank Group ricerca per la corsa AI unicorni in futuro

Uber contro Lyft: Come i rivali approccio cloud, AI, e di machine learning

AI Sanitari: Salvare la vita della popolazione di scala (CNET)

AI eliminerà 1 di 8 posti di lavoro in Asia entro il 2024 (TechRepublic)

Argomenti Correlati:

Sviluppatore

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software