
Etter OpenAIs Spring Update-arrangement i går, demonstrerte Google sin superkraftige stemmeassistent for kunstig intelligens til rivaliserende GPT-4o. Gemini Live utnytter en forbedret multimodal AI-modell for å tilby mobilbrukere en mer naturlig samtaleopplevelse i sanntid.
Også: Alt annonsert på Google I/O 2024: Gemini, Search, Android 15 og mer
Gemini Live lar deg ha stemmesamtaler med Gemini som føles naturlige og intuitive. Du kan for eksempel stille Gemini Live-spørsmål i ditt eget tempo og avbryte AI-roboten midt i setningen for å få den til å avklare eller justere hvordan den svarer, på samme måte som OpenAI viste frem under GPT-4o-demoen. Google vil tilby en rekke stemmer som brukerne kan velge mellom for Gemini Live-opplevelsen, slik OpenAI har gjort med ChatGPT siden integreringen av Whisper i september 2023.
Google planlegger å legge til den fulle multimodale opplevelsen til Gemini Live senere i år, slik at Gemini kan se verden rundt deg når du åpner kameraet under en samtale. Dette ligner på hva ChatGPT-brukere vil kunne gjøre de neste ukene etter en oppdatering som først vil bli rullet ut til ChatGPT Plus-brukere. I Gemini-appen vil denne funksjonaliteten drives av Googles Project Astra.
Også: ChatGPT vs. ChatGPT Plus: Er et betalt abonnement fortsatt verdt det?
Blant denne og andre oppdateringer har Google også oppgradert Gemini Nano for å behandle tekst, bilder og lyder, noe som betyr at modellen ikke lenger er begrenset til tekstinntasting. Gemini Nano med multimodalitet blir først tilgjengelig for Pixel-smarttelefoner.