Alt annonsert på Google I/O 2024: Gemini, Søk, Project Astra og mer

0
20
Google IO 2024 Kerry Wan/ZDNET

Google har allerede hatt et begivenhetsrikt år, og endret sin AI-chatbot fra Bard til Gemini og lanserer flere nye AI-modeller. På årets Google I/O-utviklerkonferanse ga selskapet flere kunngjøringer angående kunstig intelligens og hvordan den vil bli integrert i selskapets ulike apper og tjenester.

Som forventet var kunstig intelligens i sentrum av arrangementet, med teknologien som ble infundert i nesten alle Google-produkter, fra Søk, som stort sett har vært det samme i flere tiår, til Android 15 til, selvfølgelig, Gemini. Her er en oppsummering av alle viktige kunngjøringer som er gjort på arrangementet så langt. Og følg med for de siste oppdateringene.

1. Tvillingene

Det ville ikke vært et Google-utviklerarrangement hvis selskapet ikke avduket minst én ny storspråklig modell (LLM), og i år er den nye modellen Gemini 1.5 Flash. Denne modellens appell er at den er den raskeste Gemini-modellen som serveres i API og et mer kostnadseffektivt alternativ enn Gemini 1.5 Pro, mens den fortsatt er svært kapabel. Gemini 1.5 Flash er tilgjengelig i offentlig forhåndsvisning i Googles AI-studio og Vertex AI fra og med i dag.

flash-utility.png Google

Selv om Gemini 1.5 Pro nettopp ble lansert i februar, har den blitt oppgradert for å gi svar av bedre kvalitet på mange forskjellige områder, inkludert oversettelse, resonnement, koding og mer. Google deler at den nyeste versjonen har oppnådd sterke forbedringer på flere benchmarks, inkludert MMMU, MathVista, ChartQA, DocVQA, InfographicVQA og mer.

Også: Google I/O 2024: 5 Gemini-funksjoner som ville trekke meg bort fra Copilot

Videre vil Gemini 1.5 Pro, med sitt 1 million kontekstvindu, være tilgjengelig for forbrukere i Gemini Advanced. Dette er viktig fordi det vil tillate forbrukere å få AI-hjelp på store arbeidsoppgaver, for eksempel PDF-filer som er på 1500 sider.

Google

Som om kontekstvinduet ikke allerede var stort nok, forhåndsviser Google et to millioner kontekstvindu i Gemini 1.5 Pro og Gemini 1.5 Flash til utviklere gjennom en venteliste i Google AI Studio. < /p>

Også: De beste AI-chatbotene: ChatGPT og alternativer

Gemini Nano, Googles modell designet for å kjøre på smarttelefoner, har blitt utvidet til å inkludere bilder i tillegg til tekst. Google deler at fra og med Pixel vil applikasjoner som bruker Gemini Nano med Multimodality kunne forstå syn, lyd og talespråk. 

Gemma 2 Google

Gemini-søsterfamilien av modeller, Gemma, får også en stor oppgradering med lanseringen av Gemma 2 i juni. Neste generasjon Gemma er optimalisert for TPU-er og GPU-er og lanseres med 27B parametere.

Til slutt blir også PaliGemma, Googles første visjonsspråkmodell, lagt til i Gemma-familien av modeller. 

2. Google Søk 

Hvis du har valgt å bruke Search Generative Experience (SGE) via Search Labs, er du kjent med AI-oversiktsfunksjonen, som fyller ut AI-innsikt øverst i søkeresultatene for å gi brukere samtalende, forkortede svar på søk. 

Nå vil bruken av denne funksjonen ikke lenger være begrenset til Search Labs, siden den blir gjort tilgjengelig for alle i USA fra og med i dag. Funksjonen er muliggjort av en ny Gemini-modell, tilpasset for Google Søk. 

ai-overviews-break-it-down-still.png Google

Ifølge Google, siden AI-oversikter ble gjort tilgjengelig gjennom Search Labs, har funksjonen blitt brukt milliarder av ganger, og den har fått folk til å bruke Søk mer og være mer fornøyd med resultatene. Implementeringen i Google Søk er ment å gi en positiv opplevelse for brukerne, og vises bare når den kan legges til i søkeresultatene. 

Også: De 4 største Google Search-funksjonene annonsert på Google I/O 2024

En annen betydelig endring som kommer til Søk er en AI-organisert resultatside som bruker AI til å lage unike overskrifter for å passe bedre til brukerens søkebehov. AI-organisert søk vil begynne å rulle ut til engelskspråklige søk i USA relatert til inspirasjon, starter med servering og oppskrifter, deretter filmer, musikk, bøker, hoteller, shopping og mer, ifølge Google. < /p>

ai-organized-results-page-still.png

AI organisert resultatside

Google

< p>Google lanserer også nye søkefunksjoner som først vil bli lansert i Search Labs. For eksempel, i Search Labs vil brukere snart kunne justere AI-oversikten slik at den passer best til deres preferanser, med alternativer for å bryte ned informasjon ytterligere eller forenkle språket, ifølge Google. 

Brukere vil også kunne bruke video for å søke, og ta visuelle søk til neste nivå. Denne funksjonen vil snart være tilgjengelig i Search Labs på engelsk. Til slutt kan Search planlegge måltider og turer med deg fra og med i dag i Search Labs, på engelsk, i USA 

ai-overviews-meal-planning-still.png Google

3. Google Assistant

I tillegg til at teknologien har sin egen "Hva er nytt i Google AI" keynote, ser vi  generativ AI sprinklet gjennom andre keynote-beskrivelser også, inkludert en omtale under “What's new in Android” keynote og en annen med tittelen “Hva er nytt i Firebase for å bygge gen AI-funksjoner.”

Dessuten: Google erter en AI-kamerafunksjon foran I/O som ser bedre ut enn Rabbit R1

Det er også over 10 bekreftede "tekniske økter" relatert til generativ AI, fokusert på emner inkludert de siste Gemma-fremskritt og lære hvordan du bruker multimodal gjenvinningsutvidet generasjon (RAG) med Gemini.

4. Veo (tekst-til-video-generator)

Google er ikke nytt for tekst-til-video AI-modeller, etter å ha delt en forskningsartikkel om Lumiere-modellen sin i januar. Nå avduker selskapet sin mest kapable modell til dags dato, Veo, som kan generere høykvalitets 1080p-oppløsning videolengder utover et minutt. 

Modellen kan bedre forstå naturlig språk for å generere video som nærmere representerer brukerens visjon, ifølge Google. Den forstår også filmatiske termer som “timelapse” å generere video i ulike stiler og gi brukerne mer kontroll over det endelige resultatet. 

Også: Møt Veo, Googles mest avanserte tekst-til-video-generator, avduket på Google I/O 2024

Google deler at den bygger på mange års generativt videoarbeid, inkludert Lumiere og andre utbredte modeller som Imagen-Video, VideoPoet og mer. Modellen er ennå ikke tilgjengelig for brukere; den er imidlertid tilgjengelig for utvalgte skapere som en privat forhåndsvisning i VideoFX, og publikum inviteres til å bli med på en venteliste. 

Denne videogeneratoren ser ut til å være Googles svar på Open AIs tekst-til-bilde-modell, Sora, som heller ikke er allment tilgjengelig ennå og i privat forhåndsvisning for røde lagspillere og et utvalgt antall reklamer. < /p>

5. Imagen 3

Google avduket også sin neste generasjons tekst-til-bilde-generator, Imagen 3. Ifølge Google produserer denne modellen bilder av høyeste kvalitet ennå, med flere detaljer og færre artefakter i bilder for å bidra til å lage mer realistiske bilder. 

I likhet med Veo har Imagen 3 forbedret naturlige språkfunksjoner for bedre å forstå brukerforespørsler og intensjonen bak dem. Denne modellen kan takle en av de største utfordringene for AI-bildegeneratorer, tekst, med Google sier at Imagen 3 er den beste for å gjengi den. 

Også: The best AI-bildegeneratorer: Testet og gjennomgått

Imagen 3 er ikke allment tilgjengelig ennå, tilgjengelig i privat forhåndsvisning i Image FX for utvalgte skapere. Modellen vil snart være tilgjengelig i Vertex AI, og publikum kan registrere seg for å bli med på en venteliste. 

6. SynthID-oppdateringer

I den tiden med generativ AI vi er inne i nå, ser vi at selskaper fokuserer på multimodaliteten til AI-modeller. For å få AI-merkeverktøyene til å passe tilsvarende, utvider Google nå SynthID, Googles teknologi som vannmerker AI-bilder, til to nye modaliteter – tekst og video. Videre vil Googles nye tekst-til-video-modell, Veo, inkludere SynthID-vannmerker på alle videoer generert av plattformen. 

7. Spør bilder

Hvis du noen gang har brukt det som føltes som timer på å bla gjennom feeden din for å finne bildet du leter etter, avduket Google en AI-løsning på problemet ditt. Ved å bruke Gemini kan brukere bruke samtaleforespørsler i Google Foto for å finne bildet de leter etter. 

Spør bilder Skjermbilde av Sabrina Ortiz/ZDNET

Også: Googles nye 'Ask Photos&apos ; AI løser et problem jeg har hver dag

I eksemplet Google ga, ønsker en bruker å se datterens fremgang som svømmer over tid, så de stiller Google Foto det spørsmålet, og den pakker automatisk høydepunktene for dem. Denne funksjonen kalles Ask Photos, og Google deler at den vil lanseres senere i sommer med flere funksjoner som kommer.

8. Gemini Advanced-oppgraderinger (med Gemini Live) 

I februar lanserte Google et premium abonnementsnivå til sin chatbot, Gemini Advanced, som ga brukere tilgang til bonusfordeler som tilgang til Google' s nyeste AI-modeller og lengre samtaler. Nå oppgraderer Google sine abonnenter' tilbud enda mer med unike opplevelser. 

Også: Hva er Gemini Live? En første titt på Googles nye sanntids stemme-AI-bot

Den første, som nevnt ovenfor, er tilgang til Gemini 1.5 Pro, som gir brukere tilgang til et mye større kontekstvindu på en million tokens, som Google sier er den største av alle allment tilgjengelige forbrukerchatboter på markedet. Det større vinduet kan brukes til å laste opp større materialer, for eksempel dokumenter på opptil 1500 sider eller 100 e-poster. Snart vil den kunne behandle en time med video og kodebaser med opptil 30 000 linjer. 

En av de mest imponerende funksjonene ved hele lanseringen er Googles Gemini Live, en ny mobilopplevelse der brukere kan ha fulle samtaler med Gemini, velge mellom en rekke naturlig klingende stemmer og avbryte den midt i samtalen.& #xA0;

AI-agenter - Project Astra Google IO Kerry Wan/ZDNET

Senere i år vil brukere også kunne bruke kameraet deres med Live, og gi Gemini kontekst av verden rundt dem for disse samtalene. Gemini bruker videoforståelsesevner fra Project Astra, et prosjekt fra Google DeepMind ment å omforme fremtiden til AI-assistenter. Astra-demoen viste for eksempel en bruker som pekte ut av vinduet og spurte Gemini hvilket nabolag de sannsynligvis befant seg i ut fra det de så.

Gemini Live er i hovedsak Googles versjon av OpenAIs nye stemmemodus i ChatGPT, som selskapet kunngjorde på sitt Spring Updates-arrangement i går, der brukere også kan gjennomføre fullverdige samtaler med ChatGPT, avbryte midten av setningen, endre chatbots tone, og bruk av brukerens kamera som kontekst. 

Ved å ta en annen side fra OpenAIs bok, introduserer Google Gems for Gemini, som oppnår det samme målet som ChatGPTs GPTer. Med Gems kan brukere lage tilpassede versjoner av Gemini som passer til forskjellige formål. Alt en bruker trenger å gjøre er å dele instruksjonene om hvilken oppgave den vil at chatboten skal utføre, og Gemini vil lage en perle som passer til det formålet. 

Også:&#xA0 ;Hvordan bruke ChatGPT (og hva du kan bruke det til)

I løpet av de kommende månedene vil Gemini Advanced også inkludere en ny planleggingsopplevelse som kan hjelpe brukere med å få detaljerte planer som tar hensyn til deres egne preferanser, og går lenger enn bare å generere en reiserute. 

For eksempel, med denne opplevelsen sier Google at Gemini Advanced kan lage en reiserute som passer den flertrinns oppfordringen, "Familien min og jeg skal til Miami for Labor Day. Sønnen min elsker kunst, og mannen min vil virkelig ha fersk sjømat. Kan du hente fly- og hotellinformasjonen min fra Gmail og hjelpe meg med å planlegge helgen?"

Til slutt vil brukere snart kunne koble flere utvidelser til Gemini, inkludert Google Kalender, Tasks og Keep, slik at Gemini kan utføre oppgaver innenfor hver av disse programmene, for eksempel å ta et bilde av en oppskrift du tok og legge den til i Keep som en handleliste, ifølge Google. 

Vanlige spørsmål

Når er Google I/O?

Googles årlige utviklerkonferanse er her , som finner sted 14. og 15. mai ved Shoreline Amphitheatre i Mountain View, California. Keynote på åpningsdagen, når Google-ledere går på scenen for å avsløre selskapets nyeste maskinvare og programvare, begynner kl. 10.00 PT/13.00 ET.

Slik ser du Google I/O

Google vil livestreame arrangementet på hovednettstedet sitt og YouTube for medlemmer av publikum og pressen. Du kan registrere deg for arrangementet på  Google I/O-landingssiden gratis for å dra nytte av fordeler som å motta e-postoppdateringer og se økter på forespørsel. Det vil også være et personlig element i I/O, slik tilfellet har vært de siste to årene, med media og utviklere invitert til å delta. ZDNET vil være blant mengden i Mountain View.