I risultati sono in, e chatbots sono ancora notevolmente insoddisfacente.
I ricercatori Facebook e Microsoft, e un certo numero di altre istituzioni, la scorsa settimana ha presentato formale scrivere di qualcosa che si chiama la “Seconda Conversazione Intelligenza Sfida, una competizione tra chatbots che ha avuto luogo durante il NeurIPS intelligenza artificiale conferenza a Montreal nel mese di dicembre.
Anche se la concorrenza trovato qualcosa di meglio e ancora alcuni programmi per chatbots, nel complesso, la qualità del dialogo da questi computer è stato proprio la mancanza di qualsiasi interazione che si può avere avuto con un chatbot sul Web.
Le istanze vincente — andiamo a sottolineare che sono stati vincitori — rete neurale approcci comprendono come fastidioso goofs come incoerenze in sequenze di istruzioni. Per esempio, ha Perso in una Conversazione, il top team in gara, impegnati un uomo con un bot in una conversazione informale su ciò che piace. La macchina pronunciò la frase “amo dipingere.” Quando l’uomo risponde “Impressionante! Cosa ti piace dipingere?” la macchina risponde non con qualcosa circa la pittura, ma con “amo disegnare ritratti delle mie auto preferite.” (Chiamiamo questo doppiamente sbagliato: non è solo il disegno non è pittura, non c’è generalmente disegnare o dipingere “ritratti” di oggetti inanimati.)
Anche: Facebook open sources torre di Babele, i Klingon non supportato

Un esempio dell’anima di frantumazione di dialogo che può accadere in una chit chat con un bot.
Facebook IA Ricerca et al.
Altri strumenti includono insensata ripetizioni di frasi all’interno dello stesso frasi come: “hai degli animali domestici? hai animali domestici?” dal secondo posto di squadra, Abbracciando il Viso. Esilaranti esempi includono auto-contraddizione. Il computer dice, “ha ottenuto Appena finito di leggere un libro”, a cui un uomo chiede: “Quale libro?” a cui il computer risponde “io non leggo molto, sto più nella lettura.”
Forse è indicativo di come ripugnante chatbots sono, l’uomo che si è offerto volontario per testare le cose gratis, conversando su Facebook Messenger app, per lo più ha finito per ignorare i bot o di impegnarsi in “insensata” e anche “offensive” le conversazioni, i ricercatori scrivono. Tali valutazioni gratuite “in the wild” sono stati una tale confusione che non doveva essere eliminato completamente dalla valutazione dei bot.
Un altro gruppo di umani che sono stati pagati per testare le macchine su Mechanical Turk di Amazon piattaforma di crowdsourcing. Generalmente, essi sono stati più diligenti nell’attaccare con il compito, non è una sorpresa, dal momento che essi sono stati pagati.
Inoltre: l’Equità in AI, StarCraft Edizione
Gli autori, guardando oltre il nominali per le macchine da Turk volontari, di notare che anche il top-performing reti neurali come Lost in Translation e di Abbracciare la Faccia “sofferto per gli errori che coinvolgono la ripetizione, di coerenza o di essere “noioso”, a volte.” Un altro difetto è che le macchine “, ha chiesto troppe domande.”
“Quando il modello chiede troppe domande,” scrivono gli autori, “è possibile rendere la conversazione sentire sconnesso, soprattutto se le domande non riguardano la conversazione precedente.”
I maggiori concorrenti reti neurali “spesso non è riuscito a essere in sé coerente attraverso un paio di dialogo si trasforma,” si nota. “Anche se capita di rado, questi problemi sono particolarmente stridente, per un essere umano partner con cui parlare quando lo fanno accadere.” L’IA anche “domande frequenti che sono già risposto. Un modello che si chiede: “cosa fai per vivere?” anche se l’uomo in precedenza dichiarato ” io lavoro sul computer con conseguente umana rispondere ‘ho appena detto sciocco’.”
Anche: Google esplora AI misteriosa polytope
La carta”, Il Secondo di Conversazione Intelligenza Sfida (ConvAI2),” è stato scritto da Emily Dinan, Alexander Miller, Kurt Shuster, Jack Urbanek, Douwe Kiela, Arthur Szlam, Ryan Lowe, Joelle Pineau e Jason Weston di Facebook AI Ricerca, insieme con Varvara Logacheva, Valentin Malykh e Mikhail Burtsev da Mosca Istituto di Fisica e Tecnologia; Iulian Serban dell’Università di Montreal; Shrimai Prabhumoye, Alan W Nero, e Alexander Rudnicky della Carnegie Mellon; e Jason Williams di Microsoft. La carta è pubblicato su arXiv pre-server di stampa.
I difetti nel chatbots venire nonostante il fatto che i ricercatori hanno lunghezze grandi per migliorare la formazione e il framework di test in cui le squadre competono, relativo al precedente concorso, nel 2017.
Un frammento della vincita chatbot squadra, Lost in Translation. Molto meno goofs di altri, ma non ancora veramente sublime conversazione.
Facebook IA Ricerca et al.
Questa volta, gli autori hanno offerto un benchmark di conversazione di dati, pubblicato un anno fa da Dinan, Urbanek, Szlam, Kiela, e Weston, insieme con Saizheng Zhang di Montreal Mila istituto per l’apprendimento automatico. Che set di dati, chiamato “Persona-Chat”, che consiste in 16,064 istanze di esternazioni da parte di coppie di umani altoparlanti chiesto di chat uno con l’altro su Mechanical Turk. Un altro set di oltre 1.000 umani enunciati sono stati tenuti in segreto come un insieme di test per reti neurali. Il set di dati è stato fornito a tutti i concorrenti i ricercatori, anche se non tutti di loro.
Ogni uomo che ha contribuito a raccogliere di Persona-Chat è stato dato un “profilo” di quello che si suppone di essere qualcuno che ti piace, per sciare, per dire, o qualcuno che di recente ha ottenuto un gatto, in modo che l’umano interlocutori giocare un ruolo. Ognuno dei due altoparlanti cercate di mantenere il loro esternazioni coerente con tale ruolo come impegnarsi in un dialogo. Allo stesso modo, i profili possono essere dato a una rete neurale durante l’allenamento, in modo che attaccando la personalità è una delle incorporato sfide della concorrenza.
Come gli autori descrivono la sfida, “L’attività mira a modello normale conversazione quando due interlocutori prima di incontrare e conoscere l’altro.
“L’operazione è tecnicamente impegnativo in quanto coinvolge sia di domande e risposte, e il mantenimento di un consistente persona”.
I diversi team ha utilizzato una varietà di approcci, ma soprattutto popolare è stato il “Trasformatore”, una modifica del tipico “lungo la memoria a breve termine,” o LSTM, rete neurale sviluppato da Google Ashish Vaswani e colleghi nel 2017.
E allora perché tutti i poveri risultati?
Rivedere le carenze, è chiaro che alcuni del problema è piuttosto meccanica modo in cui le macchine stanno cercando di migliorare il loro punteggio in fase di test. Per una rete neurale per rappresentare un profilo o di una persona, sembra che la macchina cerca di produrre il miglior punteggio ripetendo frasi, piuttosto che la creazione di veramente coinvolgente frasi. “Abbiamo spesso osservato modelli ripetendo la persona di frasi quasi testualmente,” scrivono, “che potrebbero portare ad un alta persona di rilevamento punteggio, ma un basso engagingness punteggio.
“Modelli di formazione per utilizzare la “persona” per creare coinvolgenti risposte, piuttosto che semplicemente la copia rimane un problema aperto.”
Deve leggere
‘IA è molto, molto stupido”, dice Google AI leader (CNET)Come ottenere tutti Google Assistente nuove voci di adesso (CNET)Unificata di Google IA divisione di un chiaro segnale di AI del futuro (TechRepublic)Top 5: le Cose da sapere riguardo AI (TechRepublic)
Che torna per la progettazione e l’intento della prova stessa, scrivono. Il test può essere troppo bassa per sviluppare solide abilità di conversazione. “E’ chiaro che molti aspetti di un agente intelligente non sono valutate da questo compito, come ad esempio l’uso della memoria a lungo termine o di una conoscenza approfondita e più profondo ragionamento,” gli autori notano.
“Per esempio, ‘Game of Thrones’ è detto, ma un modello da imitare questa conversazione non sarebbe davvero essere tenuti a sapere qualcosa di più sulla mostra, come in ConvAI2 altoparlanti tendono a superficialmente discutere di ogni altro interesse, senza soffermarsi su un argomento per troppo tempo.”
Gli autori suggeriscono un sacco di tecnologia emergente nell’elaborazione del linguaggio naturale può aiutare con alcune mancanze.
Per esempio, queste squadre non hanno accesso a una lingua encoder-decoder rete neurale chiamato “ROSA” che è stato introdotto da Google lo scorso anno. BERT può migliorare frase rappresentazione.
Analogamente, le nuove direzioni di ricerca potrebbe essere una soluzione. Per esempio, Facebook AI autori alla fine dello scorso anno ha introdotto qualcosa che si chiama “Dialogo in Linguaggio Naturale di Inferenza,” che i treni di una rete neurale per dedurre se le coppie di enunciati “comportano” o “contraddire” l’uno all’altro o sono neutri. Che tipo di approccio può “correggere il modello,” suggeriscono, attraverso la formazione di un diverso tipo di attività.
Precedente e relativa copertura:
Che cosa è l’IA? Tutto quello che devi sapere
Un esecutivo a guida di intelligenza artificiale, machine learning e generale AI alle reti neurali.
Cos’è il deep learning? Tutto quello che devi sapere
Il lowdown su deep learning: da come si relaziona con il più ampio campo di machine learning a come iniziare con esso.
Che cosa è macchina di apprendimento? Tutto quello che devi sapere
Questa guida spiega in cosa consiste la macchina di apprendimento, di come esso è legato all’intelligenza artificiale, come funziona e perché è importante.
Che cos’è il cloud computing? Tutto quello che devi sapere su
Un’introduzione al cloud computing destra, dalle nozioni di base fino a IaaS e PaaS, ibrido, public e private cloud.
Storie correlate:
Google AI naviga in “gamescape” per conquistare la teoria dei giochi
Questo è ciò che l’IA sembra (come disegnato dall’IA)
Google DeepMind team leader 3D game dev piattaforma
DeepMind AI punti i primi segni della malattia dell’occhio
Argomenti Correlati:
Sviluppatore
La Trasformazione Digitale
CXO
Internet delle Cose
L’innovazione
Enterprise Software