De resultaten zijn in, en chatbots zijn nog steeds opvallend ontevreden.
Onderzoekers op Facebook en Microsoft, en een aantal van samenwerkende instellingen, vorige week onthuld in de formele schrijf-up van de zogenaamde “Tweede Conversatie Intelligence-Challenge’, een wedstrijd tussen chatbots die plaatsvonden tijdens de NeurIPS artificial intelligence conference in Montreal in December.
Hoewel de concurrentie niet gevonden wat beter en wat slechter programma ‘ s voor chatbots, over het geheel, de kwaliteit van de dialoog van deze computers was net zo ontbreekt elke interactie die je kan hebben gehad met een chatbot op het Web.
Exemplaren van de winnende we benadrukken zij waren de winnaars — neurale netwerk benaderingen omvatten die vervelende miskleunt, zoals inconsistenties in de reeksen van de jaarrekening. Bijvoorbeeld, Verloren in een Gesprek, het beste team in de competitie, bezig een mens met een bot in een informeel gesprek over wat ze allebei graag. De machine gaf de zin “ik hou van om te schilderen.” Wanneer de mens reageert op de “Awesome! Wat vind je het leuk om te schilderen?” het apparaat reageert niet met iets over de schilderkunst, maar met “ik hou van om te tekenen van portretten van mijn favoriete auto’ s.” (We noemen dit het dubbel mis: niet alleen wordt de tekening niet schilderen, niet in het algemeen tekenen of schilderen “portretten” van levenloze voorwerpen.)
Ook op: Facebook open bronnen toren van Babel, het Klingon niet ondersteund

Een voorbeeld van de ziel verpletterende dialoog dat kan gebeuren in een chit chatten met een bot.
Facebook AI Onderzoek et al.
Andere ergernissen zijn hersenloze herhalingen van zinnen binnen dezelfde uitspraken, zoals “heb je huisdieren? heb je huisdieren?” van de tweede-plaats-team, Knuffelen Gezicht. Hilarische voorbeelden zijn zichzelf in tegenspraak. De computer zegt, “Net klaar met het lezen van een boek,” die een mens vraagt, “Welk boek?”, waarop de computer reageert “ik heb niet veel gelezen, ben ik er meer in lezen.”
Misschien een indicatie van hoe walgelijke chatbots zijn, mensen die zich vrijwillig voor het testen van de gratis dingen voor, door het gesprek aan Facebook ‘ s Messenger-app, meestal eindigde het afstemmen van de bots of het plegen van “zinloos” en zelfs “beledigend” gesprekken, de onderzoekers schrijven. Deze gratis evaluaties “in het wild” waren zo ‘ n puinhoop die ze moest volledig worden geëlimineerd uit de evaluatie van de bots.
Een andere groep van mensen betaald werden voor het testen van de machines op de Amazon Mechanical Turk crowdsourcing platform. Zij over het algemeen werden meer ijverig in steken met de taak, geen verrassing, aangezien zij betaald wordt.
Ook: Eerlijkheid in de AI, StarCraft Edition
De auteurs, met uitzicht over de ratings gegeven aan de machines door Turk vrijwilligers, merk op dat zelfs van de best presterende neurale netwerken zoals Lost in Translation en Knuffelen Gezicht “last van fouten, waarbij herhaling, consistentie of ‘saai’.” Een andere fout was dat de machines ‘ vroeg te veel vragen.”
“Als het model vraagt te veel vragen,” de auteurs schrijven, “het kan ervoor zorgen dat het gesprek het gevoel onsamenhangend, in het bijzonder als de vragen geen betrekking hebben op het vorige gesprek.”
De top concurrenten van’ neurale netwerken ‘ vaak niet zelf-consistent over een paar dialoog draait,” ze let. “Zelfs als ze zelden gebeuren, deze problemen zijn vooral schokkend voor een menselijke gesprekspartner wanneer ze gebeuren.” De AI ook “veelgestelde vragen die al beantwoord. Een model vraagt ‘wat doe je voor de kost?’, hoewel de menselijke eerder vermelde ‘ik werk op de computers die in het menselijk beantwoorden ‘ik heb je net verteld dom’.”
Ook: Google AI onderzoekt de mysterieuze polytope
Het papier, “De Tweede Conversatie Intelligence Uitdaging (ConvAI2),” is geschreven door Emily Dinan, Alexander Miller, Kurt Shuster, Jack Urbanek, Douwe Kiela, Arthur Szlam, Ryan Lowe, Joelle Pineau en Jason Weston van Facebook AI-Onderzoek, samen met Varvara Logacheva, Valentin Malykh en Michail Burtsev van het Moscow Institute of Physics and Technology; Iulian Serban van de Universiteit van Montreal; Shrimai Prabhumoye, Alan W Zwart en Alexander Rudnicky van de Carnegie Mellon; en Jason Williams van Microsoft. Het papier is geplaatst op het arXiv pre-print server.
De gebreken in de chatbots komen, ondanks het feit dat de onderzoekers grote moeite om de verbetering van de opleiding en het testen van het kader waarbinnen de teams strijden, in vergelijking met de vorige wedstrijd, in 2017.
Een fragment uit de winnende chatbot team, Verloren in de Vertaling. Veel minder miskleunt dan anderen, maar nog steeds niet echt sublieme gesprek.
Facebook AI Onderzoek et al.
Deze keer rond, de auteurs aangeboden een benchmark suite van conversatie gegevens, publiceerde een jaar geleden door Dinan, Urbanek, Szlam, Kiela, en Weston, samen met Saizheng Zhang van Montreal Mila instituut voor machine learning. De gegevensset, de zogenaamde “Persona-Chat,” bestaat uit 16,064 exemplaren van uitingen door paren van menselijke sprekers gevraagd om te chatten met elkaar op de Mechanische Turk. Een andere set van meer dan 1.000 menselijke uitingen werden gehouden in het geheim als een testcase voor de neurale netwerken. De data set werd verstrekt aan alle concurrerende onderzoekers, hoewel ze niet allemaal gebruikt.
Ieder mens die heeft geholpen bij het crowdsourcen Persona-Chat kreeg een “profiel” van wie ze hoort te zijn — iemand die het leuk vindt om te skiën, te zeggen, of iemand die onlangs werd een kat — zo dat het menselijk gesprekspartners een rol spelen. Elk van de twee luidsprekers te proberen om hun uitingen consistent zijn met de rol die ze in dialoog te treden. Ook de profielen kan worden gegeven aan een neuraal netwerk tijdens de training, dus die vasthouden aan de persoonlijkheid is een van de ingesloten uitdagingen van de concurrentie.
Zoals de auteurs beschrijven de uitdaging, “De taak streeft naar het model normaal gesprek voeren, als twee gesprekspartners eerst ontmoeten en elkaar te leren kennen.
“De taak is technisch uitdagend als het gaat om het stellen en beantwoorden van vragen, en het handhaven van een consistente persona.”
De verschillende teams van een verscheidenheid van benaderingen, maar vooral populair is de “Transformator” een wijziging van de typische “lange, korte-termijn geheugen,” of LSTM, neuraal netwerk, ontwikkeld door Google Ashish Vaswani en collega ‘ s in 2017.
Dus waarom al dat slechte resultaten?
De herziening van de tekortkomingen, het is duidelijk dat sommige van het probleem is de nogal mechanische wijze, waarop de machines zijn met het proberen te verbeteren van hun score wanneer het wordt getest. Voor een neuraal netwerk te vertegenwoordigen een profiel of persona, het lijkt erop dat de machine probeert te produceren van de beste score door het herhalen van zinnen, eerder dan het creëren van een echt boeiende zinnen. “We vaak waargenomen modellen het herhalen van de persona zinnen bijna letterlijk,” schrijven ze, “dat kan leiden tot een hoge persona detectie score, maar een lage engagingness score.
“De Training modellen gebruik van de persona te creëren boeiende antwoorden in plaats van het simpelweg kopiëren het blijft nog steeds een open probleem.”
Moet lezen
‘AI is heel, heel stom,’ zegt Google AI leider (CNET)Hoe krijg je al die Google Assistent van de nieuwe stemmen nu (CNET)Unified Google AI afdeling een duidelijk signaal van AI ‘ s toekomst (TechRepublic)Top 5: Dingen om te weten over AI (TechRepublic)
Dat gaat terug tot het ontwerp en de opzet van de test zelf, schrijven ze. De tests kunnen worden te ondiep te ontwikkelen robuuste conversatie vaardigheden. “Het is duidelijk dat veel aspecten van een intelligente agent-zijn niet geëvalueerd door deze taak, zoals het gebruik van lange-termijn geheugen of in-diepte kennis en dieper redenering,” de auteurs observeren.
“Bijvoorbeeld, ‘Game of Thrones’ is genoemd, maar een model imiteren van dit gesprek zou het echt niet nodig om te weten iets meer over de show, als in ConvAI2 luidsprekers hebben de neiging om langzaam te bespreken elkaars belang zonder hangen op een onderwerp te lang.”
De auteurs suggereren een veel opkomende technologie in de verwerking van natuurlijke taal kan helpen met een aantal van de tekortkomingen.
Bijvoorbeeld, deze teams hadden geen toegang tot een taal encoder-decoder neurale netwerk met de naam “BERT”, dat werd geïntroduceerd door Google eind vorig jaar. BERT kan verbeteren zin vertegenwoordiging.
Ook nieuwe richtingen in het onderzoek is misschien een oplossing. Bijvoorbeeld de Facebook AI auteurs eind vorig jaar introduceerde iets genaamd “Dialoog Natuurlijke Taal Gevolgtrekking,” die treinen een neuraal netwerk is af te leiden of een paar uitingen “in” of “tegenspreken” een ander, of zijn neutraal. Dat soort van aanpak kan “fix van het model,” ze suggereren, door training op een heel ander soort taak.
Vorige en aanverwante dekking:
Wat is AI? Alles wat je moet weten
Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.
Wat is diep leren? Alles wat je moet weten
De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.
Wat is machine learning? Alles wat je moet weten
In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.
Wat is cloud computing? Alles wat u moet weten over
Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.
Verwante artikelen:
Google AI surft op het “gamescape” te veroveren spel theorie
Dit is wat AI eruit ziet (zoals geschetst door AI)
Google DeepMind teams met toonaangevende 3D-game dev platform
DeepMind AI plekken vroege tekenen van de ziekte van het oog
Verwante Onderwerpen:
Ontwikkelaar
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software