På sitt etterlengtede årlige I/O-arrangement kunngjorde Google denne uken spennende funksjonalitet til Gemini AI-modellen, spesielt dens multimodale muligheter, i en forhåndsinnspilt videodemo.
Selv om det høres mye ut som "Live" funksjonen på Instagram eller TikTok, Live for Gemini refererer til muligheten for deg å "vise" Gemini visningen din via kameraet ditt, og ha en toveis samtale med AI i sanntid. Tenk på det som videosamtaler med en venn som vet alt om alt.
Også: Jeg demonstrerte Googles Project Astra og det føltes som fremtiden for generativ AI (inntil det ikke gjorde det)
I år har denne typen AI-teknologi dukket opp i en rekke andre enheter som Rabbit R1 og Humane AI-pinnen, to ikke-smarttelefonenheter som kom ut i vår til en mengde håpefulle nysgjerrighet, men flyttet til slutt ikke nålen bort fra smarttelefonens overlegenhet.
Nå som disse enhetene har hatt sine øyeblikk i solen, har Googles Gemini AI inntatt scenen med sin raske, samtale multi-modale AI og brakte fokus tilbake til smarttelefonen.
Google ertet denne funksjonaliteten dagen før I/O i en tweet som viste at Gemini korrekt identifiserte scenen ved I/O, deretter ga ekstra kontekst til arrangementet og stilte oppfølgingsspørsmål til brukeren.
I demovideoen på I/O slår brukeren på smarttelefonens kamera og panorerer rundt i rommet, og ber Gemini identifisere omgivelsene og gi kontekst til det den ser. Mest imponerende var ikke bare svarene Gemini ga, men hvor raskt svarene ble generert, noe som ga den naturlige samtaleinteraksjonen Google har forsøkt å formidle.
Også: 3 nye Gemini Advanced-funksjoner avduket på Google I/O 2024
Målene bak Googles såkalte Project Astra er sentrert rundt å bringe denne banebrytende AI-teknologien ned til smarttelefonens skala; Det er delvis derfor, sier Google, den skapte Gemini med multimodale muligheter fra begynnelsen. Men å få AI til å svare og stille oppfølgingsspørsmål i sanntid har tilsynelatende vært den største utfordringen.
Under lanseringsdemoen R1 i april viste Rabbit frem lignende multimodal AI-teknologi som mange hyllet som en spennende funksjon. Googles teaser-video beviser at selskapet har jobbet hardt med å utvikle lignende funksjonalitet for Gemini som, sett ut fra det, til og med kan være bedre.
Google er ikke alene med multimodale AI-gjennombrudd. Bare en dag tidligere viste OpenAI frem sine egne oppdateringer under sin OpenAI Spring Update-livestream, inkludert GPT-4o, den nyeste AI-modellen som nå driver ChatGPT til å “se, høre og snakke”. Under demoen viste presentatører AI ulike objekter og scenarier via smarttelefonene sine. kameraer, inkludert et matematisk problem skrevet for hånd, og presentatørens ansiktsuttrykk, med AI som korrekt identifiserer disse tingene gjennom en lignende samtale frem og tilbake med brukerne.
Også: Googles nye 'Ask Photos' AI løser et problem jeg har hver dag
Når Google oppdaterer Gemini på mobil senere i år med denne funksjonen, kan selskapets teknologi hoppe til fronten av pack i AI-assistentløpet, spesielt med Geminis ekstremt naturlig klingende tråkkfrekvens og oppfølgingsspørsmål. Imidlertid er den nøyaktige bredden av evner ennå ikke fullt ut sett; denne utviklingen posisjonerer Gemini som kanskje den mest velintegrerte multimodale AI-assistenten.
Folk som deltok på Googles I/O-arrangement personlig hadde en sjanse til å demonstrere Geminis multi- modal AI for mobil i en kontrollert "sandkasse" miljø på arrangementet, men vi kan forvente flere praktiske opplevelser senere i år.