Jeg demonstrerte Googles Project Astra og det føltes som fremtiden for generativ AI (inntil det ikke gjorde det)

0
41
Google Pixel 8a Camera Kerry Wan/ZDNET

Mens jeg ventet gjennom en kø med journalister og gikk inn i det lille demorommet, var øynene mine limt til en veggmontert skjerm og Pixel 8 Pro i en av to Google-produkteksperter' hender. Den forhåndsinnspilte presentasjonen av Project Astra, som ble vist under selskapets I/O-keynote en time tidligere, ble godt mottatt – og en vanskelig handling å følge. Nå, med telefonen min gjemt i brystlommen, var den virkelige demoen i ferd med å begynne.

Også: Google Glass vs. Project Astra: Sergey Brin om AI wearables and his top use case

Project Astra er ideen til Google DeepMind; selskapets visjon om en multimodal, superladet AI-assistent som kan behandle visuell informasjon, vise resonnement og huske hva den har blitt fortalt eller vist. Den vil ikke være like lett tilgjengelig som de nye Gemini-funksjonene som kommer til Android-enheter, men sluttmålet, i hvert fall foreløpig, er å bygge inn teknologien i telefoner og muligens bærbare enheter, og bli en daglig assistent for alt vi gjør.

For demoen ble jeg presentert for fire brukstilfeller: Storyteller, Pictionary, Alliteration og Free-form. De er alle ganske selvforklarende og ingenting eksisterende generative AI-modeller kan ikke gjøre, men dybden, hastigheten og tilpasningsevnen til svarene er der Project Astra virkelig skinner. 

Først plasserte jeg en pepper på Astras kamerafeed og ba den lage en allitterasjon. "Gylne grupperinger skinner strålende," den svarte selvsikkert, men feil. "Vent, det er en pepper," Jeg sa til Astra. "Kanskje polert paprika poserer fredelig." Mye bedre.

Også: 9 største kunngjøringer på Google I/O 2024: Gemini, Search, Project Astra og mer

Jeg tilsatte deretter en leke-is og banan i blandingen og spurte Astra om de ville lage en god lunsj. “Kanskje gir pakkeprotein pep,” det antydet, å forstå ubalansen i ernæringen mellom de tre matvarene og, til min overraskelse, å holde fast ved allitterasjoner. Astras svar var relativt raske, forresten, nok til å avskrekke meg fra å trekke ut Rabbit R1 for å sammenligne.

Kanskje mer bemerkelsesverdig var hvor naturlig AI hørtes ut – med samme tone som OpenAI's GPT4-o — mens jeg panorerte Pixel 8 Pro-kameraet rundt og stilte tilfeldige spørsmål om forskjellige objekter i rommet. Den naturlig klingende stemmen går hånd i hånd med funksjonene Storyteller og Pictionary, som begge holder barn, studenter og folk som har tid til overs underholdt.

Også: De beste AI-chatbotene i 2024: ChatGPT og alternativer

Et problem jeg møtte under min omtrent fem minutters demo var hvordan Astra ofte stoppet midt i responsen , muligens tolket lydene av ekstern prat og aktiveringen av fotball i nærheten (hvor Google demonstrerte hvordan AI-en kunne bedømme din sparkende form) som at jeg avbrøt den. Muligheten til å avbryte en stemmeassistent er det siste trinnet for å oppnå mer naturlige samtaler. 

I dette tilfellet kan imidlertid den høye følsomheten til den hodebårne mikrofonen på en av medarbeiderne ha virket mot demoen. Det får meg til å tro at det kan være vanskeligere å kommunisere med Astra enn å snakke med en faktisk person ved siden av meg i mer travle miljøer, som når jeg navigerer gjennom t-banen i NYC eller på en messe.

Også: Generativ AI kan transformere kundeopplevelser. Men bare hvis du fokuserer på andre områder først

Det andre problemet med Project Astra er minnefunksjonene. For øyeblikket husker og sporer AI-en bare plasseringen til objekter som vises til den i chat-økten (bare noen få minutter). Mens AI var i stand til å huske at jeg hadde plassert telefonen min i brystlommen på jakken min ved starten av demoen, ville den teoretisk sett ikke kunne fortelle meg hvor jeg forlot TV-fjernkontrollen kvelden før — da en slik funksjon ville være mest fordelaktig.

En av forskerne fortalte meg at det absolutt er mulig å utvide minnekapasiteten til Astra – som kjører på skyen og ikke på enheten. Avveiningen for en slik ytelsesbragd vil sannsynligvis være batterilevetid, spesielt hvis målet er å passe teknologien i en bærbar som er tynn og lett som briller. 

Til slutt ga Google DeepMind meg en sterk visjon om hvordan fremtiden for AI-interaksjoner kan se ut. De har bare noen rynker som må jevnes ut før jeg er klar til å introdusere en annen stemmeassistent i livet mitt.