9 største kunngjøringer på Google I/O 2024: Gemini, Search, Project Astra og mer

0
10
Google IO 2024 Kerry Wan/ZDNET

Google har allerede hatt et begivenhetsrikt år, og endret sin AI-chatbot fra Bard til Gemini og lanserer flere nye AI-modeller. På årets Google I/O-utviklerkonferanse kom selskapet med flere kunngjøringer angående AI og hvordan det vil bli integrert i selskapets ulike apper og tjenester.

Også: Hvordan for å registrere deg for Google Labs (og 5 grunner til at du bør)

Som forventet var kunstig intelligens i sentrum av arrangementet, med teknologien som ble infundert i nesten alle Google-produkter, fra Søk, som stort sett har vært det samme i flere tiår, til Android 15 til, selvfølgelig, Gemini. Her er en oppsummering av alle viktige kunngjøringer som er gjort på arrangementet så langt. Og følg med for de siste oppdateringene.

1. Tvillingene

Det ville ikke vært et Google-utviklerarrangement hvis selskapet ikke avduket minst én ny storspråklig modell (LLM), og i år er den nye modellen Gemini 1.5 Flash. Denne modellens appell er at den er den raskeste Gemini-modellen som serveres i API og et mer kostnadseffektivt alternativ enn Gemini 1.5 Pro, mens den fortsatt er svært kapabel. Gemini 1.5 Flash er tilgjengelig i offentlig forhåndsvisning i Googles AI-studio og Vertex AI fra og med i dag.

flash-utility.png Google

Selv om Gemini 1.5 Pro nettopp ble lansert i februar, har det vært oppgradert for å gi svar av bedre kvalitet på mange forskjellige områder, inkludert oversettelse, resonnement, koding og mer. Google deler at den nyeste versjonen har oppnådd sterke forbedringer på flere benchmarks, inkludert MMMU, MathVista, ChartQA, DocVQA, InfographicVQA og mer.

Også: Google I/O 2024: 5 Gemini-funksjoner som vil trekke meg vekk fra Copilot

Dessuten vil Gemini 1.5 Pro, med sitt 1 million kontekstvindu, være tilgjengelig for forbrukere i Gemini Advanced . Dette er viktig fordi det vil tillate forbrukere å få AI-hjelp på store arbeidsoppgaver, for eksempel PDF-filer som er på 1500 sider.

Google

Som om det kontekstvinduet ikke allerede var stort nok, forhåndsviser Google et to millioner kontekstvindu i Gemini 1.5 Pro og Gemini 1.5 Flash til utviklere gjennom en venteliste i Google AI Studio. 

< strong>Også: De beste AI-chatbotene: ChatGPT og alternativer

Gemini Nano, Googles modell designet for å kjøre på smarttelefoner, har blitt utvidet til å inkludere bilder i tillegg til tekst. Google deler at fra og med Pixel vil applikasjoner som bruker Gemini Nano med Multimodality kunne forstå syn, lyd og talespråk. 

Gemma 2 Google

Gemini-søsterfamilien av modeller, Gemma, får også en stor oppgradering med lansering av Gemma 2 i juni. Neste generasjon Gemma er optimalisert for TPU-er og GPU-er og lanseres med 27B parametere.

Til slutt blir også PaliGemma, Googles første visjonsspråkmodell, lagt til i Gemma-familien av modeller. 

2. Google Søk 

Hvis du har valgt å bruke Search Generative Experience (SGE) via Search Labs, er du kjent med AI-oversiktsfunksjonen, som fyller ut AI-innsikt øverst i søkeresultatene for å gi brukere samtalende, forkortede svar på søk. 

Nå vil bruken av denne funksjonen ikke lenger være begrenset til Search Labs, siden den blir gjort tilgjengelig for alle i USA fra og med i dag. Funksjonen er muliggjort av en ny Gemini-modell, tilpasset for Google Søk. 

ai-overviews-break-it-down-still.png Google

Ifølge Google, siden AI-oversikter ble gjort tilgjengelig gjennom Search Labs, har funksjonen blitt brukt milliarder av ganger, og den har fått folk til å bruke Søk mer og være mer fornøyd med resultatene. Implementeringen i Google Søk er ment å gi en positiv opplevelse for brukerne, og vises bare når den kan legges til i søkeresultatene. 

Også: De 4 største Google Search-funksjonene annonsert på Google I/O 2024

En annen betydelig endring som kommer til Søk er en AI-organisert resultatside som bruker AI til å lage unike overskrifter for å passe bedre til brukerens søkebehov. AI-organisert søk vil begynne å rulle ut til engelskspråklige søk i USA relatert til inspirasjon, starter med servering og oppskrifter, deretter filmer, musikk, bøker, hoteller, shopping og mer, ifølge Google. < /p>

ai-organized-results-page-still.png

AI organisert resultatside

Google

Google lanserer også nye søkefunksjoner som først vil bli lansert i Search Labs. For eksempel, i Search Labs vil brukere snart kunne justere AI-oversikten slik at den passer best til deres preferanser, med alternativer for å bryte ned informasjon ytterligere eller forenkle språket, ifølge Google. 

Brukere vil også kunne bruke video for å søke, og ta visuelle søk til neste nivå. Denne funksjonen vil snart være tilgjengelig i Search Labs på engelsk. Til slutt kan Search planlegge måltider og turer med deg fra og med i dag i Search Labs, på engelsk, i USA 

ai-overviews-meal-planning-still.png Google

3. Veo (tekst-til-video-generator)

Google er ikke nytt for tekst-til-video AI-modeller, etter å ha delt en forskningsartikkel om Lumiere-modellen sin i januar. Nå avduker selskapet sin mest dyktige modell til dags dato, Veo, som kan generere høykvalitets 1080p-oppløsning videolengder utover et minutt. 

Modellen kan bedre forstå naturlig språk for å generere video som i større grad representerer brukerens visjon, ifølge Google. Den forstår også filmatiske termer som “timelapse” å generere video i ulike stiler og gi brukerne mer kontroll over det endelige resultatet. 

Også: Møt Veo, Googles mest avanserte tekst-til-video-generator, avduket på Google I/O 2024

Google deler at den bygger på årevis med generativt videoarbeid, inkludert Lumiere og andre utbredte modeller som Imagen-Video, VideoPoet og mer. Modellen er ennå ikke tilgjengelig for brukere; den er imidlertid tilgjengelig for utvalgte skapere som en privat forhåndsvisning i VideoFX, og publikum inviteres til å bli med på en venteliste. 

Denne videogeneratoren ser ut til å være Googles svar på Open AI' s tekst-til-bilde-modell, Sora, som heller ikke er allment tilgjengelig ennå og er i privat forhåndsvisning for røde lagspillere og et utvalgt antall reklamer. 

4. Bilde 3

Google avduket også sin neste generasjons tekst-til-bilde-generator, Imagen 3. Ifølge Google produserer denne modellen bilder av høyeste kvalitet ennå, med flere detaljer og færre artefakter i bilder for å bidra til å skape mer realistiske bilder. < /p>

I likhet med Veo har Imagen 3 forbedret naturlige språkfunksjoner for bedre å forstå brukerforespørsler og intensjonen bak dem. Denne modellen kan takle en av de største utfordringene for AI-bildegeneratorer, tekst, og Google sier at Imagen 3 er den beste for å gjengi den. 

Også: De beste AI-bildegeneratorene: Testet og vurdert

Imagen 3 er ikke allment tilgjengelig ennå, tilgjengelig i privat forhåndsvisning i Image FX for utvalgte skapere. Modellen vil snart være tilgjengelig i Vertex AI, og publikum kan registrere seg for å bli med på en venteliste. 

5. SynthID-oppdateringer

I den tiden med generativ AI vi er inne i nå, ser vi at selskaper fokuserer på multimodaliteten til AI-modeller. For å få AI-merkeverktøyene til å passe tilsvarende, utvider Google nå SynthID, Googles teknologi som vannmerker AI-bilder, til to nye modaliteter – tekst og video. Videre vil Googles nye tekst-til-video-modell, Veo, inkludere SynthID-vannmerker på alle videoer generert av plattformen. 

6. Spør bilder

Hvis du noen gang har brukt det som føltes som timer på å bla gjennom feeden din for å finne bildet du leter etter, avduket Google en AI-løsning på problemet ditt. Ved å bruke Gemini kan brukere bruke samtalemeldinger i Google Foto for å finne bildet de leter etter. 

Spør bilder Skjermbilde av Sabrina Ortiz/ZDNET

Også: Googles nye 'Ask Photos' AI løser et problem jeg har hver dag

I eksemplet Google ga, ønsker en bruker å se datterens fremgang som svømmer over tid, så de stiller Google Foto det spørsmålet, og det pakker automatisk høydepunktene for dem. Denne funksjonen kalles Ask Photos, og Google deler at den vil lanseres senere i sommer med flere funksjoner som kommer.

7. Gemini avanserte oppgraderinger (med Gemini Live) 

I februar lanserte Google et premium abonnementsnivå til sin chatbot, Gemini Advanced, som ga brukere tilgang til bonusfordeler som tilgang til Googles nyeste AI-modeller og lengre samtaler. Nå oppgraderer Google sine abonnenter' tilbud enda mer med unike opplevelser. 

Også: Hva er Gemini Live? En første titt på Googles nye sanntids stemme-AI-bot

Den første, som nevnt ovenfor, er tilgang til Gemini 1.5 Pro, som gir brukere tilgang til et mye større kontekstvindu på en million tokens, som Google sier er den største av alle allment tilgjengelige forbrukerchatboter på markedet. Det større vinduet kan brukes til å laste opp større materialer, for eksempel dokumenter på opptil 1500 sider eller 100 e-poster. Snart vil den kunne behandle en time med video og kodebaser med opptil 30 000 linjer. 

En av de mest imponerende funksjonene ved hele lanseringen er Googles Gemini Live, en ny mobilopplevelse der brukere kan ha fulle samtaler med Gemini, velge mellom en rekke naturlig klingende stemmer og avbryte den midt i samtalen.& #xA0;

AI-agenter - Project Astra Google IO Kerry Wan/ZDNET

Senere i år vil brukere også kunne bruke kameraet sitt med Live, noe som gir Gemini kontekst av verden rundt dem for disse samtalene. Gemini bruker videoforståelsesevner fra Project Astra, et prosjekt fra Google DeepMind ment å omforme fremtiden til AI-assistenter. Astra-demoen viste for eksempel en bruker som pekte ut av vinduet og spurte Gemini hvilket nabolag de sannsynligvis befant seg i ut fra det de så.

Gemini Live er i hovedsak Googles versjon av OpenAIs nye stemmemodus i ChatGPT, som selskapet kunngjorde på sitt Spring Updates-arrangement i går, der brukere også kan gjennomføre fullverdige samtaler med ChatGPT, avbryte midten av setningen, endre chatbots tone, og bruk av brukerens kamera som kontekst. 

Ved å ta en annen side fra OpenAIs bok, introduserer Google Gems for Gemini, som oppnår det samme målet som ChatGPTs GPTer. Med Gems kan brukere lage tilpassede versjoner av Gemini som passer til forskjellige formål. Alt en bruker trenger å gjøre er å dele instruksjonene om hvilken oppgave den vil at chatboten skal utføre, og Gemini vil lage en perle som passer til det formålet. 

Også:&#xA0 ;Hvordan bruke ChatGPT (og hva du kan bruke det til)

I de kommende månedene vil Gemini Advanced også inkludere en ny planleggingsopplevelse som kan hjelpe brukere med å få detaljerte planer som tar hensyn til sine egne preferanser, og går lenger enn bare å generere en reiserute. 

Med denne opplevelsen sier Google for eksempel at Gemini Advanced kan lage en reiserute som passer den flertrinns oppfordringen, “Familien min og jeg skal til Miami for Labor Day. Sønnen min elsker kunst, og mannen min vil virkelig ha fersk sjømat. Kan du hente fly- og hotellinformasjonen min fra Gmail og hjelpe meg med å planlegge helgen?"

Til slutt vil brukere snart kunne koble flere utvidelser til Gemini, inkludert Google Kalender, Huskeliste og Keep, slik at Tvillingene til å utføre oppgaver innenfor hver av disse programmene, for eksempel å ta et bilde av en oppskrift du tok og legge den til Keep som en handleliste, ifølge Google. 

8. AI-oppgraderinger til Android

Flere av dagens tidligere kunngjøringer rant til slutt (og ikke overraskende) ned til Googles mobile plattform, Android. Til å begynne med kan Circle to Search, som lar brukere utføre et Google-søk ved å sirkle bilder, videoer og tekst på telefonskjermen, nå "hjelpe elevene med lekser" (les: den kan nå lede deg gjennom ligninger og matematiske problemer når du ringer rundt dem). Google sier at funksjonen vil fungere med emner som spenner fra matematikk til fysikk, og vil til slutt kunne behandle komplekse problemer som symbolske formler, diagrammer og mer.

Også: De beste Android-telefonene å kjøpe i 2024

Gemini vil også erstatte Google Assistant, og blir standard AI-assistent på Android-telefoner og tilgjengelig med et langt trykk på strømknappen. Etter hvert vil Gemini bli lagt over ulike tjenester og apper, og gi multimodal støtte når det blir bedt om det. Gemini Nanos multimodale muligheter vil også bli utnyttet gjennom Androids TalkBack-funksjon, som gir mer beskrivende svar for brukere som opplever blindhet eller dårlig syn.

Til slutt, hvis du ved et uhell mottar en spam-anrop, Gemini Nano kan lytte til og oppdage mistenkelige samtalemønstre og varsle deg om enten "Avvis & fortsett" eller "Avslutt samtale." Funksjonen kan velges senere i år.

9. Gemini for Google Workspace-oppdateringer 

Med alle Gemini-oppdateringene kunne Google Workspace ikke stå uten en egen AI-oppgradering. For det første vil Gemini-sidepanelet til Gmail, Dokumenter, Disk, Slides og Sheets oppgraderes til Gemini 1.5 Pro. 

Dette er viktig fordi, som diskutert ovenfor, Gemini 1.5 Pro gir brukere et lengre kontekstvindu og mer avansert resonnement, som brukere nå kan dra nytte av i sidepanelet til noen av de mest populære Google Workspace-appene for oppgradert assistanse. 

Google Workspace oppdatert sidepanel Google

Denne opplevelsen er nå tilgjengelig for Workspace Labs og Gemini for Workspace Alpha-brukere. Gemini for Workspace-tillegg og Google One AI Premium Plan-brukere kan forvente å se det neste måned på skrivebordet. 

Gmail for mobil vil nå ha tre nye nyttige funksjoner: oppsummering, Gmail Q& A, og kontekstuelt smart svar. Summarize-funksjonen gjør akkurat det navnet tilsier – den oppsummerer en e-posttråd som utnytter Gemini. Denne funksjonen kommer til brukere fra og med denne måneden. 

Også: Google ertet nettopp AR-smartbriller, og du kan allerede se hvordan programvaren fungerer

Gmail Q&A-funksjonen lar brukere chatte med Gemini om konteksten til e-postene deres i Gmail-mobilappen. For eksempel, i demoen, ba brukeren Gemini om å sammenligne reparasjonsbud for taktekker etter pris og tilgjengelighet. Gemini hentet deretter informasjonen fra flere forskjellige innbokser og viste den for brukeren, som vist på bildet nedenfor. 

Kontekstuell smartsvar er en smartere funksjon for automatisk svar som kompilerer et svar ved hjelp av konteksten til e-posttråden og Gemini-chatten. Både Gemail Q&A og Contextual Smart Reply vil lanseres til Labs-brukere i juli. 

Til slutt, Hjelp meg å skrive-funksjonen i Gmail og Dokumenter får støtte for spansk og portugisisk, og kommer til skrivebordet i løpet av de kommende ukene. 

Vanlige spørsmål

Når er Google I /O?

Googles årlige utviklerkonferanse er her, og finner sted 14. og 15. mai på Shoreline Amphitheatre i Mountain View, California. Keynote på åpningsdagen, når Google-ledere går på scenen for å avsløre selskapets nyeste maskinvare og programvare, begynner kl. 10.00 PT/13.00 ET.

Slik ser du Google I/O

Google vil livestreame arrangementet på hovednettstedet sitt og YouTube for medlemmer av publikum og pressen. Du kan registrere deg for arrangementet på  Google I/O-landingssiden gratis for å dra nytte av fordeler som å motta e-postoppdateringer og se økter på forespørsel. Det vil også være et personlig element i I/O, slik tilfellet har vært de siste to årene, med media og utviklere invitert til å delta. ZDNET vil være blant mengden i Mountain View.