Hva er Google Gemini?
Gemini er en kraftig modell for kunstig intelligens (AI) fra Google som kan forstå tekst, bilder, videoer og lyd. Som en multimodal modell beskrives Gemini som i stand til å fullføre komplekse oppgaver innen matematikk, fysikk og andre områder, og forstå og generere høykvalitetskode på ulike programmeringsspråk.
Den er for øyeblikket tilgjengelig gjennom Gemini chatbot (tidligere Google Bard) og noen Google Pixel enheter og vil gradvis bli foldet inn i andre Google-tjenester. Under Google I/O 2024 kunngjorde selskapet nye funksjoner som vil komme til Gemini, inkludert en ny 'Live' modus og integrasjoner med Project Astra. Gemini gir også AI-oversikt i Google-søk.
Også: Jeg rangerte AI-funksjonene som ble annonsert på Google I/O fra mest nyttige til gimmicky
" Gemini er et resultat av storstilt samarbeid fra team på tvers av Google, inkludert våre kolleger i Google Research," sa Dennis Hassabis, administrerende direktør og medgründer av Google DeepMind, da han kunngjorde Gemini.
“Den ble bygget fra grunnen av for å være multimodal, noe som betyr at den kan generalisere og sømløst forstå, operere på tvers og kombinere forskjellige typer informasjon, inkludert tekst, kode, lyd, bilde og video.”
< h2>Hvem har laget Gemini?
Gemini ble opprettet av Google og Alphabet, Googles morselskap, og utgitt som selskapets mest avanserte AI-modell til dags dato.
< p>Også: ChatGPT-skrivebordsappen er mer nyttig enn jeg forventet – her er hvorfor og hvordan du kan prøve den
Google DeepMind har også gitt betydelige bidrag til utviklingen av Gemini.& #xA0;
Finnes det forskjellige versjoner av Gemini?
Google beskriver Gemini som en fleksibel modell som kan kjøre på alt fra Googles datasentre til mobile enheter. For å oppnå dette nivået av skalerbarhet ble Gemini utgitt i tre størrelser: Gemini Nano, Gemini Pro og Gemini Ultra.
Gemini Nano 1.0: Gemini Nano-modellstørrelsen er designet for å kjøre på smarttelefoner, opprinnelig lansert på Google Pixel 8. Den er bygget for å utføre oppgaver på enheten som krever effektiv AI-behandling uten å koble til eksterne servere, for eksempel å foreslå svar innenfor chatteapplikasjoner, forståelse av bilder eller oppsummering av tekst. Gemini Nano-modellen har et kontekstvindu på 32 000 tokener.Gemini Flash 1.5:Denne modellen er bygget for hastighet, så det er et lett og kostnadseffektivt alternativ. Modellen har et langt kontekstvindu, med én million token-kontekst som standard, nok til å behandle en time med video eller over 30 000 linjer med kode. Gemini Pro 1.5: Gemini Pro kjører på Googles datasentre og er designet for å drive den nyeste versjonen av selskapets betalte AI-chatbot-tjeneste, Gemini Advanced. Denne modellen kan levere raske responstider og forstå komplekse spørsmål. Google har nettopp oppgradert kontekstvinduet til to millioner tokens, det lengste av noen storskalamodell som er tilgjengelig nå. Gemini Ultra 1.0: Google beskriver Gemini Ultra som sin mest kapable modell , som overgår “gjeldende toppmoderne resultater på 30 av de 32 mye brukte akademiske referansene som brukes i forskning og utvikling av store språkmodeller (LLM)." Den er designet for svært komplekse oppgaver og er tilgjengelig gjennom Vertex AI og Google AI Studio med Gemini API.
Også: Denne subtile (men nyttige) AI-funksjonen var min favoritt Google I/O 2024 kunngjøring
Hvordan får du tilgang til Gemini?
Den raskeste måten å bruke Gemini-modellen på er å gå til AI-chatbotens nettsted, Gemini.Google.com. Du kan ha en samtale med Gemini gjennom denne siden som du kan med ChatGPT og andre AI chatbots.
Gemini-modellen er tilgjengelig i Google-produkter, som Android-drevne enheter, Gemini-mobilappen, Google-søk med AI-oversikt, Google Foto og mer. Google planlegger å integrere Gemini ytterligere i søke-, annonser-, Chrome- og andre tjenester.
Også: Google Glass vs. Project Astra: Sergey Brin om AI wearables og hans beste bruk case
Utviklere og bedriftskunder kan få tilgang til Gemini Ultra via Gemini API i Googles AI Studio og Google Cloud Vertex AI. Android-utviklere har tilgang til Gemini Nano via AICore.
Hvordan skiller Gemini seg fra andre AI-modeller, som GPT-4?
Googles nye Gemini-modell ser ut til å være den største og mest avanserte AI-modellen til dags dato, selv om den utbredte utgivelsen av Ultra-modellen vil avgjøre dette faktum. Sammenlignet med andre populære modeller som driver AI-chatbots, skiller Gemini seg ut på grunn av sin opprinnelige multimodale karakteristikk og lange kontekstvindu på én million tokens.
Også: Hva står GPT for? Forstå GPT 3.5, GPT 4, GPT-4 Turbo og mer
GPT-4, til sammenligning, er tilgjengelig i 8k og 32k token-kontekster.
Sammenlignet med GPT-4, en primært tekstbasert modell, utfører Gemini enkelt multimodale oppgaver naturlig. Mens GPT-4 utmerker seg i språkrelaterte oppgaver, som for eksempel innholdsskaping og kompleks tekstanalyse, tyr den til OpenAIs plugins for å utføre bildeanalyse og få tilgang til nettet på testtidspunktet og er avhengig av DALL-E 3 og Whisper å generere bilder og behandle lyd.
Denne tilnærmingen kan endre seg når OpenAI gjør GPT-4o allment tilgjengelig, ettersom ChatGPT ikke vil stole på tre separate modeller for å utføre handlinger og i stedet vil bruke en omnimodell .
Også: De beste AI-chatbotene: ChatGPT og andre bemerkelsesverdige alternativer
Googles Gemini ser også ut til å være mer produktfokusert enn andre tilgjengelige modeller. Gemini er enten integrert i selskapets økosystem eller har planer om å bli det, ettersom det driver både chatbot og Android-enheter. Andre modeller, som GPT-4 og Meta's Llama, er mer serviceorienterte og tilgjengelige for ulike tredjepartsutviklere for applikasjoner, verktøy og tjenester.