Hvorfor chatbots stadig lader os kolde

0
103

Resultaterne er i, og chatbots er stadig bemærkelsesværdigt dissatisfying.

Forskere på Facebook og Microsoft, og en række af samarbejdende institutioner, der i sidste uge afslørede den formelle skrive-up af noget, der hedder “Anden Samtale Intelligens Udfordring,” en konkurrence mellem chatbots, der fandt sted under NeurIPS kunstig intelligens-konferencen i Montreal i December.

Selvom konkurrencen fundet nogle bedre og nogle værre programmer for chatbots, i det hele taget kvaliteten af dialogen fra disse computere var lige så mangler enhver interaktion, du har haft med en chatbot på Nettet.

Eksempler fra det vindende — lad os understrege, at de var vindere — neurale netværk tilgange omfatter sådanne irriterende goofs som uoverensstemmelser i sekvenser af sætninger. For eksempel, Mistede i en Samtale, det bedste hold i den konkurrence, der er engageret et menneske med en bot i en afslappet samtale om, hvad de begge kan lide. Maskinen sagt sætningen “jeg elsker at male.” Når et menneske reagerer “Awesome! Hvad kan du lide at male?” maskinen reagerer ikke med noget om at male, men med “jeg elsker at tegne portrætter af mine foretrukne biler.” (Lad os kalde denne dobbelt forkert: ikke kun er tegning ikke maleri, man ikke generelt tegne eller male “portrætter” af livløse genstande.)

Også: Facebook åbne kilder tower of Babel, Klingon ikke understøttet

bad-chatbot-example-1-convai2.png

Et eksempel på sjælen-knusning dialog, der kan ske i en snak med en bot.

Facebook AI Forskning et al.

Andre ubehageligheder omfatter meningsløse gentagelser af sætninger i de samme ytringer, såsom “har du nogen kæledyr? har du kæledyr?” fra det andet-sted team, Krammede Ansigt. Sjove eksempler kan nævnes selvmodsigelse. Computeren siger, “har Lige fået færdig med at læse en bog,” som et menneske beder om, “Hvilken bog?”, som computeren reagerer “jeg læser ikke meget, jeg er mere til at læse.”

Måske et tegn på, hvor frastødende chatbots er, at mennesker, der meldte sig frivilligt til at teste ting gratis, ved at samtale på Facebook ‘ s Messenger app, for det meste endte tuning de bots eller deltage i “meningsløse” og endda “stødende” samtaler, forskere skriver. Disse gratis evalueringer “in the wild” var sådan et rod, de havde for at være helt elimineret fra evaluering af bots.

En anden gruppe af mennesker var betalt for at teste maskiner på Amazon Mechanical Turk crowdsourcing platform. De generelt var mere omhyggelige med at holde sig til den opgave, ingen overraskelse, da de blev betalt.

Også: Retfærdighed i AI, StarCraft Udgave

De forfattere, der kigger over de vurderinger, der gives til de maskiner, som Turk frivillige, bemærk, at selv de bedste neurale netværk som Tabt i Oversættelsen, og Krammede Ansigt “lidt fra fejl, der involverer gentagelse, konsistens eller for at være ‘kedelige’ til tider.” En anden fejl var, at de maskiner, der “stillede for mange spørgsmål.”

“Når modellen spørger alt for mange spørgsmål,” skriver forfatterne: “det kan gøre samtalen føle dig usammenhængende, især hvis de spørgsmål, der ikke vedrører den foregående samtale.”

Top konkurrenter ” neurale netværk “ofte har undladt at være selv-konsistent på tværs af et par dialog viser,” at de venligst. “Selv hvis de sker sjældent, at disse problemer er især skurrende for et menneske at tale partner, når de sker.” AI også “spurgte spørgsmål der allerede er besvaret. En model, der spørger ” hvad gør du for et levende?”, selv om den menneskelige tidligere udtalt, at “jeg arbejder med computere”, hvilket i den menneskelige svarer “jeg har lige fortalt dig, dumme’.”

Også: Google udforsker AI ‘ s mystiske polytope

Papiret, “Den Anden Samtale Intelligens Udfordring (ConvAI2),” er forfattet af Emily Dinan, Alexander Miller, Kurt Shuster, Jack Urbanek, Douwe Kiela, Arthur Szlam, Ryan Lowe, Joelle Pineau og Jason Weston af Facebook AI Forskning, sammen med Varvara Logacheva, Valentin Malykh og Mikhail Burtsev fra Moskvas Institut for Fysik og Teknologi; Iulian Serban fra University of Montreal; Shrimai Prabhumoye, Alan W Sort, og Alexander Rudnicky af Carnegie Mellon; og Jason Williams fra Microsoft. Det papir, der er lagt ud på arXiv pre-print-server.

De mangler i chatbots komme på trods af det faktum, at forskerne tog en stor indsats for at forbedre uddannelse og test ramme, hvor holdene konkurrerer i forhold til den tidligere konkurrence, i 2017.

bad-chatbot-example-1-convai2.png

Et uddrag fra den vindende chatbot team, Tabt i Oversættelsen. Langt færre goofs end andre, men stadig ikke rigtig sublime tale.

Facebook AI Forskning et al.

Denne gang omkring, de forfattere, der tilbydes en benchmark suite af samtale data, der blev offentliggjort for et år siden af Dinan, Urbanek, Szlam, Kiela, og Weston, sammen med Saizheng Zhang af Montreal ‘ s Mila institut for machine learning. Det data sæt, som kaldes “Persona-Chat,” består af 16,064 tilfælde af udtalelser fra par af menneskelige højttalere bedt om at chatte med hinanden på Mechanical Turk. Et andet sæt af over 1.000 menneskers tale, som blev holdt i hemmelighed, som en test for den neurale netværk. De data, der blev givet til alle de konkurrerende forskere, men ikke alle af dem brugte det.

Hvert menneske, der hjalp med at crowdsource Persona-Chat blev givet en “profil” af, hvem de er formodes at være — en person der kan lide at stå på ski, siger, eller en person, der for nylig fik en kat — så at den menneskelige interviewede spille en rolle. Hver af de to højttalere forsøge at holde deres ytringer er i overensstemmelse med den rolle, som de engagere sig i en dialog. Ligeledes, de profiler, der kan gives til et neuralt netværk under uddannelsen, så at holde sig til personlighed er en af de indlejrede udfordringer for konkurrencen.

Som forfatterne beskriver den udfordring, “Den opgave har til formål at modellere en normal samtale, når to af de interviewede første møde, og komme til at kende hinanden.

“Opgaven er teknisk udfordrende, da det indebærer både at spørge og svare på spørgsmål, og opretholder en konsekvent persona.”

De forskellige teams anvendes en bred vifte af tilgange, men især populære var “Transformer”, en ændring af de typiske “lang og kort sigt hukommelse,” eller LSTM, neurale netværk, der er udviklet af Google ‘ s Ashish Vaswani og kolleger i 2017.

Så hvorfor alle de dårlige resultater?

Gennemgang af de mangler, er det klart, at noget af problemet er snarere mekanisk måde, som de maskiner, der forsøger at forbedre deres score, når de bliver testet. For et neuralt netværk til at repræsentere en profil eller en persona, det lader maskinen forsøger at producere det bedste resultat ved at gentage sætninger, snarere end at skabe virkelig at engagere sig i sætninger. “Vi har ofte observeret modeller gentage persona sætninger næsten ordret,” skriver de, “der kan føre til en høj persona opdagelse score, men en lav engagingness score.

“Uddannelse modeller til at bruge persona til at skabe engagerende svar i stedet for blot at kopiere det er stadig et åbent problem.”

Skal læse

“AI er meget, meget dum, “siger Google’ s AI-leder (CNET), Hvordan man får alle Google Assistant ‘s nye stemmer lige nu (CNET)Samlet Google AI division et klart signal om, at AI’ s fremtid (TechRepublic)Top 5: Ting at vide om AI (TechRepublic)

Der går tilbage til design og hensigten med testen i sig selv, skriver de. Prøverne kan være for lavt til at udvikle en robust samtale færdigheder. “Det er klart mange aspekter af en intelligent agent er ikke evalueret af denne opgave, såsom brug af lang sigt hukommelse eller en indgående viden om og dybere argumentation,” forfatterne observere.

“For eksempel, ‘Game of Thrones’ er nævnt, men en model, der efterligner denne samtale ikke ville virkelig være nødvendigt at vide noget mere om showet, som i ConvAI2 højttalere har en tendens til overfladisk diskutere hinandens interesse uden dvælende på et emne, der alt for længe.”

Forfatterne foreslår, at en masse nye teknologi i naturligt sprog forarbejdning kan hjælpe med nogle af de mangler.

For eksempel, disse hold ikke har adgang til et sprog, encoder-decoder neurale netværk kaldet “BERT”, der blev indført af Google i slutningen af sidste år. BERT kan forbedre sætning repræsentation.

Ligeledes nye veje i forskning kan være en løsning. For eksempel, Facebook AI forfattere i slutningen af sidste år indført noget, der hedder “Dialog Naturlige Sprog, som grundlag for at Antage”, som tog et neuralt netværk til at udlede, om par af ytringer “medfører” eller “modsige” en anden eller er neutral. Denne form for strategi kan “løse model,” de foreslår, ved at træne på en helt anden slags opgave.

Tidligere og relaterede dækning:

Hvad er AI? Alt, hvad du behøver at vide

En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.

Hvad er dyb læring? Alt, hvad du behøver at vide

Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.

Hvad er machine learning? Alt, hvad du behøver at vide

Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.

Hvad er cloud computing? Alt, hvad du behøver at vide om

En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.

Relaterede historier:

Google ‘ s AI surfer “gamescape” for at erobre game theory
Dette er, hvad AI ligner (som skitseret ved AI)
Google ‘ s DeepMind hold med førende 3D spil dev platform
DeepMind ‘ s AI pletter tidlige tegn på øjensygdom

Relaterede Emner:

Udvikler

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software