Varför chatbots fortfarande lämna oss kalla

0
85

Resultaten är i och chatbots är fortfarande anmärkningsvärt otillfredsställande.

Forskare på Facebook och Microsoft, och ett antal samverkande institutioner, i förra veckan presenterade den formella skriva upp av något som kallas för den “Andra Konversera Intelligens Utmaningen” är en tävling mellan chatbots som ägde rum under NeurIPS artificiell intelligens-konferensen i Montreal i December.

Även om tävlingen finns några bättre och några sämre program för chatbots, på det hela, kvaliteten på dialogen från dessa datorer var lika saknas någon interaktion du kan ha haft med en chatbot på Webben.

Fall från det vinnande — låt oss understryka att de var vinnare — neurala nätverk metoder inkluderar sådana irriterande gör en tabbe som inkonsekvenser i sekvenser av satser. Till exempel, Förlorade i Samtal, bästa lag i tävlingen, som bedriver en människa med en bot i en avslappnad konversation om vad de båda gillar. Maskinen yttrade frasen “jag älskar att måla.” När den mänskliga svarar “Awesome! Vad tycker du om att måla?” maskinen svarar inte med något om att måla, men med “jag älskar att rita porträtt av mina favorit bilar.” (Låt oss kalla detta dubbelt fel: det är inte bara dra inte målning, en allmänhet inte rita eller måla “porträtt” av livlösa objekt.)

Också: Facebook öppna källor babels torn, Klingonska inte stöds

bad-chatbot-example-1-convai2.png

Ett exempel på den förkrossande dialog som kan hända i en tjitt chatta med en bot.

Facebook AI-Forskning et al.

Andra olägenheter inkluderar meningslösa upprepningar av fraser inom samma uttalanden, såsom “har du några husdjur? har du husdjur?” från den andra-plats laget, Kramas Ansikte. Lustiga exempel inkluderar egen motsägelse. Datorn säger, “kom Precis läst klart en bok,” till vilken en människa frågar: “Vilken bok?” som datorn svarar “jag läser inte mycket, jag är mer till läsning.”

Kanske ett tecken på hur motbjudande chatbots är, människor som anmälde sig som frivilliga att testa saker gratis, genom att samtala på Facebook Messenger-appen, som oftast slutade med att trimma ut robotar eller ägna sig åt “meningslösa” och även “stötande” samtal, skriver forskarna. Dessa fria utvärderingar “i naturen” var en sådan röra att de var tvungna att vara helt elimineras från utvärderingen av robotar.

En annan grupp av människor fick betalt för att testa maskinerna på Amazon Mechanical Turk crowdsourcing-plattform. De hade generellt en mer flitiga i att hålla sig med uppgiften, ingen överraskning, eftersom de fick betalt.

Också: Rättvisa i AI, StarCraft Edition

Författarna, med utsikt över de betyg som ges till de maskiner som Turk volontärer, observera att även de högpresterande neurala nätverk som Lost in Translation och Kramas Ansikte “drabbats av fel som involverar upprepning, konsistens eller för att vara “tråkigt” ibland.” En annan brist var att maskinerna “ställde för många frågor.”

“När modellen ställer för många frågor”, skriver författarna, “kan det göra att samtalet känns osammanhängande, särskilt om de frågor som inte avser föregående konversation.”

Den främsta konkurrenter ” neurala nätverk “ofta har misslyckats med att vara själv konsekvent över några dialog svängar,” påpekar de. “Även om de råkar sällan dessa problem är särskilt skärande för en människa att tala partner när de händer.” AI också “frågor som redan är besvarade. En modell frågar ” vad gör du för att leva?”, trots att den mänskliga tidigare angivna “jag arbetar på datorer” som resulterar i att mänskligt att svara “jag berättade bara dumt’.”

Också: Google utforskar AI mystiska polytope

Papper, “Den Andra Konversera Intelligens Utmaning (ConvAI2),” är skriven av Emily Dinan, Alexander Miller, Kurt Shuster, Jack Urbanek, Douwe restaurangen kiela, Arthur Szlam, Ryan Lowe, Joelle Pineau och Jason Weston av Facebook AI-Forskning, tillsammans med Varvara Logacheva, Valentin Malykh och Mikhail Burtsev från Moskva-Institutet för Fysik och Teknologi. Iulian Serban av Universitetet i Montreal. Shrimai Prabhumoye, Alan W Svart, och Alexander Rudnicky av Carnegie Mellon; och Jason Williams av Microsoft. Uppsatsen är upplagd på arXiv pre-print-server.

Brister i chatbots komma trots att forskarna tog stora ansträngningar för att förbättra utbildning och test ramverk inom vilket lag tävlar i förhållande till den tidigare konkurrensen, i och med 2017.

bad-chatbot-example-1-convai2.png

Ett utdrag från den vinnande chatbot laget, Förlorade i Översättning. Betydligt färre gör en tabbe än andra, men fortfarande inte riktigt sublima konversation.

Facebook AI-Forskning et al.

Den här gången, författare erbjuds ett riktmärke svit av konversation data, som publicerades för ett år sedan av Dinan, Urbanek, Szlam, restaurangen kiela, och Weston, tillsammans med Saizheng Zhang av Montreal Mila-institutet för maskininlärning. Att uppgifterna, som kallas för “Persona-Chat”, består av 16,064 fall av yttranden par av mänskliga högtalare ombedd att chatta med varandra på Mechanical Turk. En annan uppsättning av över 1 000 människors yttranden hölls i hemlighet som en test för neurala nätverk. De uppgifter som lämnades till alla konkurrerande forskare, även om inte alla av dem använde det.

Varje människa som hjälpte crowdsource Persona-Chatta fick en “profil” som de är tänkt att vara — någon som gillar att åka skidor, säger, eller någon som nyligen fick en katt — så att den mänskliga samtalspartner spela en roll. Var och en av de två högtalarna försök att hålla sina yttranden förenliga med den roll som de för en dialog. Likaså profiler kan ges till ett neuralt nätverk under träning, så att hålla sig till personlighet är en av de inbyggda utmaningar i konkurrensen.

Som författarna beskriver utmaningen, “uppgiften syftar till att modellera normal konversation när två samtalspartner först träffas och lära känna varandra.

“Uppgiften är tekniskt utmanande, eftersom det innebär att både ställa och svara på frågor, och för att upprätthålla en konsekvent personlighet.”

De olika lagen används en mängd olika metoder, men särskilt populära var “Transformator”, en modifiering av den typiska “lång-och kortsiktiga minne” eller LSTM, neurala nätverk som utvecklats av Google ‘ s Ashish Vaswani och kollegor 2017.

Så varför allt det dåliga resultatet?

Se över brister, det är klart att en del av problemet är snarare mekaniska sätt som maskinerna försöker att förbättra sina betyg när de testade. För ett neuralt nätverk för att representera en profil eller persona, det verkar maskinen försöker att producera den bästa poängen genom att upprepa meningar, snarare än att skapa en verkligt engagerande situationer. “Vi ofta observeras modeller upprepa persona meningar nästan ordagrant,” skriver de, “som kan leda till en hög persona upptäckt betyg men en låg engagingness betyg.

“Utbildning modeller för att använda persona för att skapa engagerande svar snarare än att helt enkelt kopiera det fortfarande en öppen problem.”

Måste läsa

‘AI är mycket, mycket dumt”, säger Googles AI ledare (CNET)Hur man får alla Google Assistant nya röster just nu (CNET)Enhetlig Google AI division en tydlig signal om att AI: s framtid (TechRepublic)Topp 5: Saker att veta om AI (TechRepublic)

Som går tillbaka till design och avsikten med att testa sig själv, skriver de. Testerna kan vara för grunt för att utveckla robusta konversation färdigheter. “Det är tydligt att många aspekter av en intelligent agent är inte utvärderats av denna uppgift, såsom användning av långtidsminnet eller fördjupad kunskap och djupare resonemang,” författarna observera.

“Till exempel” Game of Thrones ” är nämnt, men en modell som imiterar detta samtal skulle egentligen inte vara skyldig att veta något mer om mässan, som i ConvAI2 högtalare tenderar att ytligt diskutera varandras intresse utan kvardröjande på ett ämne för länge.”

Författarna föreslår att en hel del ny teknik i behandling av naturligt språk kan hjälpa till med vissa brister.

Till exempel, dessa grupper inte har tillgång till ett språk encoder-decoder neurala nätverk som kallas “BERT” som lanserades av Google i slutet av förra året. BERT kan förbättra meningen representation.

På samma sätt, nya forskningsinriktningar kan vara en lösning. Till exempel Facebook AI författare i slutet av förra året infört något som kallas “Dialog Naturligt Språk Slutledning,” vilka tåg som ett neuralt nätverk för att sluta sig till om par av yttranden “innebär” eller “strid” för någon annan eller är neutrala. Denna typ av strategi kan “fixa-modellen”, föreslår de, som utbildning på en helt annan typ av uppgift.

Tidigare och relaterade täckning:

Vad är AI? Allt du behöver veta

En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.

Vad är djupt lärande? Allt du behöver veta

Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.

Vad är lärande? Allt du behöver veta

Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.

Vad är cloud computing? Allt du behöver veta om

En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.

Relaterade artiklar:

Googles AI surfar “gamescape” att erövra spelteori
Detta är vad AI ser ut (som skissat av AI)
Googles DeepMind lag med ledande 3D-spel dev plattform
DeepMind AI fläckar tidiga tecken på ögonsjukdom

Relaterade Ämnen:

Utvecklare

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem