OpenAI er best kjent for sine avanserte store språkmodeller (LLM) som brukes for å drive noen av de mest populære AI-chatbotene, som ChatGPT og Copilot. Imidlertid kan multimodale modeller ta chatbot-evner til nye høyder ved å slippe løs en ny rekke visuelle applikasjoner, og OpenAI har nettopp gjort en tilgjengelig for utviklere.
Tirsdag, via et X (tidligere Twitter)-innlegg, kunngjorde OpenAI at GPT-4 Turbo with Vision, den nyeste GPT-4 Turbo-modellen med synsfunksjoner, nå er generelt tilgjengelig for utviklere via OpenAI API.
Også: Slik bruker du ChatGPT
Denne modellen opprettholder GPT-4 Turbos 128 000 token-vindu og kunnskapsgrense fra desember 2023, med den eneste signifikante forskjellen er dens visjonsevner som lar den forstå bilder og visuelt innhold.
Før denne modellen ble gjort tilgjengelig, måtte utviklere bruke separate modeller for tekst og bilder. Nå kan utviklere bare bruke én modell som kan gjøre begge deler, forenkle prosessen og åpne dørene for et bredt spekter av bruksområder.
OpenAI deler noen måter utviklere allerede bruker modellen på, og de er ganske fascinerende.
Også: De beste AI-bildegeneratorene i 2024: Testet og gjennomgått
For eksempel, Devin, en AI Software engineering assistent, utnytter GPT-4 Turbos visjon for å bedre hjelpe med koding. Helse- og treningsappen, Healthify, bruker GPT-4 Turbo with Vision for å skanne bilder av brukere' måltider og gi ernæringsmessig innsikt gjennom fotogjenkjenning. Til slutt, Make Real, bruker GPT-4 Turbo med Vision for å konvertere en brukers tegning til et fungerende nettsted som drives av ekte kode.
Selv om GPT-4 Turbo with Vision-modellen ennå ikke er tilgjengelig i ChatGPT eller for allmennheten, ertet OpenAI at den snart vil være tilgjengelig i ChatGPT. Hvis du er en utvikler som ønsker å komme i gang med OpenAIs GPT-4 Turbo med Vision API, kan du lære hvordan du kommer i gang her.