På sitt etterlengtede årlige I/O-arrangement annonserte Google spennende funksjonalitet til Gemini AI-modellen, spesielt dens multimodale muligheter, i en forhåndsinnspilt videodemo. Donv
Selv om det høres mye ut som "Live" funksjonen på Instagram eller TikTok, Live for Gemini refererer til muligheten for deg å "vise" Gemini visningen din via kameraet ditt, og ha en toveis samtale med AI i sanntid. Tenk på det som FaceTiming med en venn som vet alt om alt.
Også: Alt annonsert på Google I/O 2024: Gemini, Search, Project Astra og mer< /p>
I år har denne typen AI-teknologi dukket opp i en rekke andre enheter som Rabbit R1 og Humane AI-pinnen, to ikke-smarttelefonenheter som kom ut i vår til en mengde håpefulle nysgjerrighet, men flyttet til slutt ikke nålen bort fra smarttelefonens overlegenhet.
Nå som disse enhetene hadde sine øyeblikk i solen, har Googles Gemini AI tatt scenen med den raske, konverserende multimodale AI og brakte fokuset tilbake til smarttelefonen.
Google ertet denne funksjonaliteten dagen før I/O i en tweet som viste frem Gemini som korrekt identifiserte scenen ved I/O, for så å gi ekstra kontekst til arrangementet og stille oppfølgingsspørsmål til brukeren.
I demovideoen på I/O slår brukeren på smarttelefonens kamera og panorerer rundt i rommet, og ber Gemini identifisere omgivelsene og gi kontekst til det den ser. Mest imponerende var ikke bare svarene Gemini ga, men hvor raskt svarene ble generert, noe som ga den naturlige samtaleinteraksjonen Google har forsøkt å formidle.
Også: 3 nye Gemini Advanced-funksjoner avduket på Google I/O 2024
Målene bak Googles såkalte Project Astra er sentrert rundt å bringe denne banebrytende AI-teknologien ned til skalaen til smarttelefonen; Det er delvis derfor, sier Google, den skapte Gemini med multimodale muligheter fra begynnelsen. Men å få AI til å svare og stille oppfølgingsspørsmål i sanntid har tilsynelatende vært den største utfordringen.
Under sin R1-lanseringsdemo i april viste Rabbit seg frem lignende multimodal AI-teknologi som mange hyllet som en spennende funksjon. Googles teaser-video beviser at selskapet har jobbet hardt med å utvikle lignende funksjonalitet for Gemini som, sett ut fra det, til og med kan være bedre.
Også: Hva er Gemini Live? En første titt på Googles nye sanntids stemme-AI-bot
Google er ikke alene med multimodale AI-gjennombrudd. Bare en dag tidligere viste OpenAI frem sine egne oppdateringer under sin OpenAI Spring Update-livestream, inkludert GPT-4o, den nyeste AI-modellen som nå driver ChatGPT til å “se, høre og snakke”. Under demoen viste presentatører AI en forskjellige objekter og scenarier via smarttelefonene sine. kameraer, inkludert et matematisk problem skrevet for hånd, og presentatørens ansiktsuttrykk, med AI som korrekt identifiserer disse tingene gjennom en lignende samtale frem og tilbake med brukerne.
Også: Googles nye 'Ask Photos' AI løser et problem jeg har hver dag
Når Google oppdaterer Gemini på mobil senere i år med denne funksjonen, kan selskapets teknologi hoppe til fronten av pakke i AI-assistentløpet, spesielt med Geminis ekstremt naturlig klingende tråkkfrekvens og oppfølgingsspørsmål. Selv om den nøyaktige bredden av evner ennå ikke er fullt ut sett, posisjonerer denne utviklingen Gemini som kanskje den mest godt integrerte multimodale AI-assistenten.
Folk som deltok på Googles I/O begivenheten personlig hadde en sjanse til å demonstrere Geminis multimodale AI for mobil i en kontrollert “sandkasse” miljø på arrangementet, men vi kan forvente flere praktiske opplevelser senere i år.