
Google erter fremskritt i Geminis multi- modal AI-evne.
I forkant av det etterlengtede årlige I/O-arrangementet ga Google ut en kort teaser-video på X som viser frem noen nye multimodale AI-funksjoner som garantert vil få produsentene av Rabbits R1 til å skjelve i støvlene.
I videoen holder brukeren opp (Android) telefonens kamera til I/O-scenen og spør "Hva tror du skjer her?" Gemini, Googles AI-modell svarer deretter, “det ser ut som folk stiller opp for et stort arrangement, kanskje en konferanse eller en presentasjon.” Deretter stiller Gemini sitt eget spørsmål: “Er det noe spesielt som fanger oppmerksomheten din?”"
Når brukeren spør Gemini hva de store bokstavene på scenen betyr, identifiserer Gemini Googles utviklerkonferanse korrekt. Spørsmålet hjelper sannsynligvis AI med å få kontekstuell informasjon, som igjen posisjonerer den til å gi mer nyttige svar. Chatboten følger deretter opp med et annet spørsmål: “Har du noen gang deltatt på Google I/O?”. Samtalen fremstår naturlig og uanstrengt, i det minste i videoen.
I april viste Rabbit frem lignende multimodal AI-teknologi under sin R1-lanseringsdemo som mange hyllet som en spennende funksjon. Googles teaser-video beviser at selskapet har jobbet hardt med å utvikle lignende funksjonalitet for Gemini, og sett ut fra den kan den til og med være bedre.
En dag igjen til #GoogleIO! Vi føler oss 🤩. Vi sees i morgen for siste nytt om AI, søk og mer. pic.twitter.com/QiS1G8GBf9
— Google (@Google) 13. mai 2024
Google og Rabbit er ikke alene. Også i dag viste OpenAI frem sin egen serie med utviklinger i sin OpenAI Spring Update-livestream, inkludert GPT-4o, den nyeste AI-modellen som nå driver ChatGPT til å “se, høre og snakke.” Under demoen viste presentatører AI en rekke forskjellige ting via smarttelefonens kamera, inkludert et matematikkproblem skrevet for hånd, og presentatørens ansiktsuttrykk, med AI som korrekt identifiserte disse tingene gjennom en lignende samtalebakgrunn. -frem med brukerne.
Også: Hva kan du forvente av Google I/O 2024: Android 15, Gemini, Wear OS og mer
Når Google oppdaterer Gemini på mobil med denne funksjonen, kan selskapets teknologi hoppe foran i flokken i AI-assistentløpet, spesielt med Geminis ekstremt naturlig klingende tråkkfrekvens og følge -opp spørsmål. Selv om den nøyaktige bredden av evner vil bli avslørt ved I/O, setter denne utviklingen absolutt Rabbit i en vanskelig posisjon, noe som gjør en av dens fremstående funksjoner i hovedsak overflødig.
Også: Hva er Gemini? Alt du bør vite om Googles nye AI-modell
Som med alle demoer som ikke vises live, bør du ta denne med en klype salt. Den strategiske utgivelsen av denne videoen bare en time før OpenAIs livestream antyder at Google vil ha mye mer å si om Gemini denne uken.