I en restaurant i Mountain View, California i går, Google ga flere små grupper av journalister en sjanse til demo Tosidig. Hvis du ikke husker, Tosidig er AI-system utviklet for å gjøre menneske-klingende stemme anrop på dine vegne, slik som å automatisere ting som booking restaurant bord og hår avtaler. I demoen, vi så hvordan det ville være for en restaurant for å motta en samtale — og faktisk hver og en av oss i sin tur tok en samtale fra Dupleks som den prøvde å bestille en reservasjon.
Orienteringer var i tjeneste på nyheten om at Google er i ferd med å begynne begrenset testing “i de kommende ukene.” Hvis du håper det betyr at du vil være i stand til å prøve det selv, beklager: Google er i ferd med “et sett av pålitelige tester brukere, ifølge Nick Fox, DIREKTØR for produkt og design for Google Assistent. Det vil også være begrenset til bedrifter som Google har inngått samarbeid med snarere enn noen gamle restauranten.
Utbyggingen vil foregå, med andre ord. Først vil være krav om holiday timer, restaurant reservasjoner vil komme senere denne sommeren, og så til slutt klippe håret avtaler vil bli de siste. De er bare tre domener som Google har trent Duplex på.
Demoer så vi hadde mange av de samme elementene som gjorde den opprinnelige demonstrasjon på Google IO så imponerende: stemmen hørtes mye mer menneskelig enn normalt, komplett med ums og ahhs. Det har også omtalt noe vi ikke hører Mai i fjor: hver samtale i gang med en eksplisitt erklæring om at samtalen ble tatt opp.
Det var et par varianter på offentliggjøring, men de er alle inkludert noen indikasjon på at du snakker til en maskin, og samtalen ble tatt opp. For eksempel, one call begynte med “Hei, jeg ringer for å gjøre en bestilling. Jeg er Googles automatiske booking service, så jeg vil ta opp samtalen. Eh, kan jeg bestille et bord for søndag den første?”
“Jeg er Googles automatiske booking service, så jeg vil ta opp samtalen.”
Et par ting å merke seg om at samtalen. Stemmen hørtes like naturlig som i videoen ovenfor, ikke i det hele tatt som en robot. Det var flere varianter på roboten disclosure — Google ser ut til å være tester for å se hvilke som er mest effektive på å gjøre at folk føler seg komfortabel å stikke med samtalen. Andre ting å vite er at hver variant jeg hørte definitivt sa at det var opptak, vanligvis etterfulgt av en rask “umm” før du hopper i å gjøre en avtale for reservasjonen.
Jo mer naturlig, menneske-klingende stemme var det ikke i den aller første prototypene som Google bygget (amusingly, de arbeidet ved å sette en bokstavelig håndsett på høyttaleren på en bærbar pc). I henhold til vice president of engineering for Google Assistent Scott Huffman, “Det fungerte ikke. …. vi fikk mye hangups, fikk vi en mye incompletion av oppgaven. Folk hadde ikke tilbyr godt med hvor unaturlig det hørtes ut.”
En del av at det høres naturlig nok til å ikke utløse en aural følelse av uhygge dalen var å legge de ums og ahs, som Huffman identifisert som “tale disfluencies.” Han understreket at de ikke var der for å lure noen, men fordi de vokale tics “spille en avgjørende rolle i progresjonen av en samtale mellom mennesker.” Han sier det kom fra en kjent gren av lingvistikk som kalles “pragmatikk”, som omfatter alle de ikke-ordet kommunikasjon som skjer i menneskelig tale: ums, ahs, hånd bevegelser, etc.
“Google har oppfunnet en masse ting” Huffman sa: “men vi gjorde ikke oppfinne ums og aahs.”
Hvis du tar en Tosidig samtale og ønsker å ta det første “um” som en mulighet til å si “ja, nei, jeg ønsker ikke å være registrert,” Tosidig kan gjenkjenne det, og avslutte samtalen med noe sånt som “‘OK-jeg skal ringe tilbake på et uinnspilt line” og så har vi en operatør bare ringe tilbake,” Fox sier.
Det er få land der Tosidig vil ikke fungere — Fox sier at Google ikke har det tillater for Texas, for eksempel — men det bør begynne å gjøre anrop i de aller fleste av OSS snart. Duplex bare fungerer på engelsk for nå, men Google har arbeidet for å sikre at det er i stand til å forstå mye av dialekter og aksenter.
“Vi kommer til å være veldig treg, veldig forsiktig, og veldig omtenksom.”
Fox understreket at atferden til Tosidig melder seg ut av Googles nylig publiserte “core AI prinsipper.” “Vi kommer til å være veldig treg, veldig forsiktig, og veldig omtenksom som vi går her,” sa Reven. Som er en del av grunnen til at den innledende testingen vil bare være med bedrifter som Google har inngått samarbeid med. Google vil også tillate bedrifter å melde deg ut for å være kalt av Duplex — trolig gjennom “Google My Business” portal. Selvfølgelig, hvis du er den typen virksomhet som ikke har online bestilling, er du sannsynligvis av den typen virksomhet som har aldri har identifisert deg selv til Google-bruker sine verktøy.
“Vi ønsker å være veldig respekt for de virksomheter vi jobber med,” Fox stresset. Google vil sørge for at bedrifter ikke får for mange samtaler fra Duplex — for eksempel si: fra mennesker som kan bruke det til å prank restauranter med falske bestillinger.
Når du setter opp Duplex på din Google-Assistent, vil du gi det et par stykker av informasjon og noen tillatelser. I en samtale, Tosidig fortalte menneske på telefonen, og det var ikke autorisert til å dele en e-post adresse, men du kan dele et telefonnummer, for eksempel.
Som for hårklipp, Fox bemerket at Google ikke hadde jobbet ut alle detaljene om hva Tosidig trenger å vite, men han så for seg et tilfelle der i det minste det kan være i stand til å be om noe som “vanlig” hårklipp.
Duplex formidlet høflighet i demoer vi så. Det pause med litt “mmhmm” når den kalles menneskelig bedt om det å vente, en pragmatisk taktikk Huffman kalt “conversational anerkjennelse.” Det viste at Tosidig fortsatt var på linje og lytte, men ville vente for mennesket til å fortsette å snakke.
Duplex er tonen var usvikelig høflig og til tider unnskyldende
Det håndteres på en haug av avbrudd, ut av ordre spørsmål, og enda rare diskursive utsagn ganske bra. Når et menneske hørtes forvirret eller oppskjørtet, Tosidig tok en tone som var nesten unnskyldende. Det virkelig ser ut til å være designet for å være en super hensynsfull og ikke-konfronterende kunden på telefonen.
Men Tosidig ikke kan håndtere alt, og slik det vil bli koblet sammen med en bank av menneskelige operatører som kan ta over en samtale hvis det går sidelengs. Valerie Nygaard, product manager for Tosidig, understreket at “dette er et system med et menneske tilbakefall.” Disse operatørene tjener to formål: de håndtere anrop at Tosidig kan ikke fullføre, og de har også merket opp samtalen transkripsjoner for Googles AI algoritmer for å lære fra.
Ingen av telefonsamtaler vi lyttet til de nødvendige menneskelige tilbakefall, imidlertid. Huffman sier at akkurat nå er fire av fem samtaler som Tosidig gjør kan håndteres uten menneskelig operatør. Det er enten en svært lav eller svært høy andel, avhengig av din holdning til teknologi.
Hvis du er skeptisk til alt dette, jeg kan ikke klandre deg. Google fikk ganske mye blowback etter sin Google IO demo, både fra folk som lurte på om offentliggjøring og fra de som trodde det har kanskje ikke vært en reell samtale. Fox insisterer på at det var, om det var redigert for å ta ut “personlig informasjon”.
Jeg lurt Tosidig
En annen grunn til å tro demoer vi så i Mountain View restaurant var ekte? Min egen demo helt floppet. Jeg spilte rollen som en travel, crabby bartender som holdt avbryte Tosidig. Systemet håndteres avbrudd fint, men det fikk flummoxed da jeg fortalte at jeg kunne gå videre og gjøre en reservasjon for syv, men fullt utstyrt kjøkken stengt på seks som dag, så det ville ha til å betale for bar mat.
Min samtale skal ha blitt delt ut til en menneskelig operatør på dette punktet, men i stedet Tosidig misforstått min mening om kjøkkenet lukking. Når jeg sa at det ville bare være bar mat i en herjet og snippy tone, svarte: “Nei jeg ser. Bye, takk.” og hengt opp.
Det var en veldig menneskelig ting å gjøre.