På en restaurang i Mountain View, Kalifornien i går, Google gav flera små grupper av journalister för en chans att demo-Duplex. Om du inte minns, Duplex är AI-systemet syftar till att göra mänskliga klingande röst samtal på din räkning så att automatisera saker som bokning av bord på restaurangen och hår möten. I den demo vi såg vad det skulle vara för en restaurang att få ett telefonsamtal — och i själva verket var och en av oss i sin tur tog ett samtal från Duplex som det försökte boka en bokning.
De översikter som var i tjänst av nyheten om att Google är på väg att börja begränsat test “under de kommande veckorna.” Om du hoppas på det innebär att du kommer att kunna prova det själv, tyvärr: Google börjar med “en uppsättning av tillförlitliga tester användare,” enligt Nick Fox, vice vd för produktutveckling och design för Google Assistent. Det kommer också att vara begränsade till företag som Google samarbetar med snarare än någon gammal restaurang.
Utbyggnaden kommer att ske stegvis, med andra ord. Först ut kommer att bli samtal om holiday timmar, sedan restaurang bokningar kommer senare under sommaren, och sedan äntligen klippt möten kommer att vara det sista. De är de enda tre domäner som Google har tränat Duplex på.
De demos vi såg hade många av de element som gjorde den ursprungliga demonstration på Google IO så imponerande: rösten lät mycket mer mänskliga än normalt, komplett med ums och ahhs. Det innehöll också något som vi inte höra i Maj förra året: varje samtal inleddes med ett explicit uttalande om att samtalet spelas in.
Det var några varianter på information, men de alla ingår några tecken på att du pratade med en maskin och att samtalet spelas in. Till exempel, ett samtal som började med “Hej, jag ringer för att göra en bokning. Jag är Googles automatiska bokningen service, så jag kommer att spela in samtalet. Öh, kan jag boka ett bord för söndag den första?”
“Jag är Googles automatiska bokningen service, så jag kommer att spela in samtalet.”
Ett par saker att notera om att ringa. Rösten lät precis lika naturligt som i videon ovan, inte alls som en robot. Det fanns flera varianter på roboten avslöjande — Google verkar vara testa för att se vilken som är mest effektiv på att få folk att känna sig bekväma att hålla sig med samtalet. Den andra sak att veta är att varje variant jag hört definitivt sa att det var inspelning, vanligtvis följt av en snabb “umm” innan du hoppar i för att göra en begäran om bokningen.
Den mer naturliga, mänskliga klingande röst var inte där i den allra första prototyper som Google byggt (lustigt, de arbetade med att sätta en bokstavlig telefonen på högtalaren på en bärbar dator). Enligt VP of engineering för Google Assistant Scott Huffman, “Det fungerade inte. …. vi fick en hel del hangups, vi fick en hel del incompletion av uppgiften. Människor som inte tar väl med hur onaturligt det lät.”
En del av det att låta naturligt nog för att inte utlösa en hörselskada känsla av uncanny valley var att lägga dem ums och ahs, som Huffman identifieras som “tal disfluencies.” Han betonade att de inte var där för att lura vem som helst, men eftersom de vokala tics “spela en viktig del i att utvecklas på ett samtal mellan människor.” Han säger att det kom från en känd gren av lingvistiken kallas “pragmatik”, som omfattar alla icke-ordet kommunikation som sker i mänskligt tal: ums, ahs, gester, etc.
“Google har hittat på en massa saker” Huffman sade, “men vi har inte uppfunnit ums och aahs.”
Om du tar en Dubbelsidig samtal och vill ta det första “um” som en möjlighet att säga “ja nej, jag vill inte att registreras,” Duplex kan känna igen det och avsluta samtalet med något som “‘OK-jag ska ringa tillbaka om en oregistrerad linje” och sedan har vi en operatör bara att ringa tillbaka,” Fox säger.
Det finns ett fåtal delstater där Duplex kommer inte att fungera — Fox säger att Google ännu inte har tillstånd för Texas, till exempel — men att det skulle börja ringa i den stora majoriteten av OSS snart. Dubbelsidig utskrift fungerar bara på engelska, men Google har arbetat för att säkerställa att det är möjligt att förstå massor av dialekter och accenter.
“Vi kommer att vara mycket långsam, mycket försiktig, och mycket tankeväckande.”
Fox betonade att det beteende Duplex uppstår ur Googles nyligen publicerade “kärna AI principer.” “Vi kommer att vara mycket långsam, mycket försiktig, och mycket tankeväckande när vi går här”, sade Fox. Det är en del av anledningen till att de inledande testerna kommer bara att vara med företag som Google samarbetar med. Google kommer också att göra det möjligt för företag att välja att inte bli kallad av Duplex — sannolikt genom “Google Mitt Företag” portal. Naturligtvis, om du är den typ av företag som inte har online bokning, du är förmodligen den typ av verksamhet, som har aldrig identifierat dig själv att Google använder sina verktyg.
“Vi vill vara mycket respekt för de företag vi jobbar med,” Fox stressad. Google kommer att se till att företag inte får alltför många samtal från Duplex — säg, till exempel, från människor som kan använda den för att upptåg restauranger med falska bokningar.
När du ställer in Dubbelsidig utskrift på ditt Google-Assistent, du ska ge det ett par bitar av information och av vissa behörigheter. I ett samtal, Duplex berättade för den människan på telefonen att det inte var rätt att dela en e-postadress men kunde dela ett telefonnummer, till exempel.
För frisörer, Fox noteras att Google inte hade fungerat på alla detaljer om vad Duplex skulle behöva veta, men han föreställde sig ett fall där åtminstone det skulle kunna fråga för något som din “vanliga” frisyr.
Duplex förmedlas artighet i demos som vi såg. Det pausade med en liten “mmhmm” när de ringde mänskliga bad att vänta, en pragmatisk taktik Huffman kallas “konversera bekräftelse.” Det visade sig att Duplex fortfarande var på linjen och lyssna, men skulle vänta på det mänskliga för att fortsätta att tala.
Duplex är tonen var alltid artig och ibland ursäktande
Det hanteras på en massa avbrott för frågor, och även konstiga diskursiva uttalanden ganska bra. När människan lät förvirrad eller nervös, Duplex tog en ton som var nästan ursäktande. Det verkar verkligen vara utformad för att vara en super omtänksam och icke-konfronterande kund i telefon.
Men Duplex kan inte hantera allt, och så kommer det att vara ihop med en bank av mänskliga aktörer som kan ta över ett samtal om det går i sidled. Valerie Nygaard, produktchef för Duplex, betonade att “detta är ett system med en människa som reserv.” De aktörer som tjänar två syften: de hanterar samtal som Duplex kan inte komplett och att de också att märka upp samtalet avskrifter för Googles AI-algoritmer för att lära sig från.
Ingen av de telefonsamtal vi lyssnade på mänskliga fallback, dock. Huffman säger att just nu fyra av fem samtal för att Dubbelsidig utskrift gör kan hanteras utan att den mänskliga operatören. Det är antingen mycket låg eller mycket hög andel, beroende på din inställning till teknik.
Om du är skeptisk till allt detta, jag klandrar dig inte. Google fick en hel del blowback efter sin Google-IO-demo, både från folk som undrar om utlämnande och från dem som tyckte att det kanske inte har varit ett verkligt samtal. Fox insisterar på att det var, om det var redigeras för att ta reda på “personlig information”.
Jag lurade Duplex
En annan anledning till att tro på de demos vi såg i Mountain View restaurant var verkliga? Min egen demo floppat helt. Jag spelade rollen av en hektisk, sura bartender som höll på att störa Duplex. Systemet hanterar avbrott fina, men det blev flummoxed när jag sa det att jag kunde gå vidare och göra en reservation för sju, men fullt utrustat kök stängt vid sex den dagen så att det skulle få nöja sig med bar mat.
Min uppmaning borde ha lämnats ut till en mänsklig operatör vid den tidpunkten, men i stället Duplex missförstått min mening om kökets stängning. När jag sade att det endast skulle vara bar mat i en härjade och snippy tonen, det svarade “Åh jag ser. Bye, tack.” och hängde upp.
Det var en mycket mänsklig sak att göra.