Googles Gemini for mobil vil ha bedre multimodal AI enn årets AI-innretninger

0
17
fetchstraAI-agenter - Google-agenter - lav

Google erter fremskritt i Geminis ;s multimodale AI-evne.

Kerry Wan/ZDNET

På sitt etterlengtede årlige I/O-arrangement kunngjorde Google spennende funksjonalitet til Gemini AI-modellen, spesielt dens multimodale muligheter i en forhåndsinnspilt videodemo. Kalt “Prosjekt Astra”, videoen viste hvordan Google har jobbet hardt med å utvikle egenskapene for Gemini til å svare på visuell og lydkontekst i sanntid, det den kaller Gemini Live. 

Selv om det høres mye ut som Instagram- eller TikTok-funksjonen, er "Live" for Gemini refererer til muligheten for deg til å "vise" Gemini visningen din via kameraet ditt, og ha en toveis samtale med AI i sanntid. Litt som FaceTiming med en venn som vet alt om alt.  

Også: Alt annonsert på Google I/O 2024: Gemini, Search, Project Astra og mer< /p>

I år har denne typen AI-teknologi dukket opp i en rekke andre enheter som  Rabbit R1 og Humane AI-pinnen, to ikke-smarttelefonenheter som kom ut i vår til en mengde håpefulle nysgjerrighet, men til slutt flyttet ikke nålen mye på smarttelefonens overlegenhet. 

Nå som disse enhetene har hatt sitt øyeblikk i solen, har Googles Gemini AI inntatt scenen med sin raske, konverserende multimodale AI og brakte fokus tilbake til smarttelefonen. 

Google ertet denne funksjonaliteten dagen før I/O i en tweet som viste frem Gemini som korrekt identifiserte trinn ved I/O, for så å gi ekstra kontekst til arrangementet og stille oppfølgingsspørsmål til brukeren. 

I demovideoen på I/O slår brukeren på smarttelefonens kamera og panorerer rundt i rommet, og ber Gemini identifisere omgivelsene og gi kontekst til det den ser. Det som var mest imponerende var ikke bare svarene det ga, men hvor raskt de ble generert, noe som resulterte i den naturlige samtalebrukerinteraksjonen Google har forsøkt å formidle.   

Også: 3 nye Gemini Advanced-funksjoner avduket på Google I/O 2024

Målene bak Googles såkalte Project Astra er sentrert rundt å bringe denne banebrytende AI-teknologien ned til skalaen til smarttelefonen, og en del av hvorfor Google sier den skapte Gemini med multimodale muligheter fra begynnelsen. Men å få AI til å svare og stille oppfølgingsspørsmål i sanntid har tilsynelatende vært den største utfordringen. 

Under sin R1-lanseringsdemo i april viste Rabbit seg frem lignende multimodal AI-teknologi som mange hyllet som en spennende funksjon. Googles teaser-video beviser at selskapet har jobbet hardt med å utvikle lignende funksjonalitet for Gemini som, sett ut fra den, til og med kan være bedre.

Også: Hva er Gemini Live? En første titt på Googles nye sanntids stemme-AI-bot

Google er ikke alene med sine gjennombrudd med multimodal AI. Bare en dag før viste OpenAI frem sine egne oppdateringer under sin OpenAI Spring Update-livestream, inkludert GPT-4o, den nyeste AI-modellen som nå driver ChatGPT til å “se, høre og snakke.” Under demoen viste presentatører AI en rekke forskjellige objekter og scenarier via smarttelefonens kamera, inkludert et matematisk problem skrevet for hånd, og presentatørens ansiktsuttrykk, med AI som korrekt identifiserte disse tingene gjennom en lignende samtalebakgrunn. -og videre med brukerne.

Også: Googles nye 'Ask Photos' AI løser et problem jeg har hver dag

Når Google oppdaterer Gemini på mobil senere i år med denne funksjonen, kan selskapets teknologi hoppe til fronten av pakke i AI-assistentløpet, spesielt med Geminis ekstremt naturlig klingende tråkkfrekvens og oppfølgingsspørsmål. Selv om den nøyaktige bredden av evner ennå ikke er fullt ut sett, posisjonerer denne utviklingen Gemini som kanskje den mest godt integrerte multimodale AI-assistenten. 

Folk som deltok på Googles I/O begivenheten personlig hadde en sjanse til å demonstrere Geminis multimodale AI for mobil i en kontrollert “sandkasse” miljø på arrangementet, men vi kan forvente mer praktisk erfaring senere i år.