
OpenAI har vært på en varm oppdateringsserie, og gjorde den siste GPT-4 Turbo tilgjengelig for utviklere og betalte ChatGPT-abonnenter forrige uke. Ved lanseringen av modellen delte OpenAI at den nye GPT-4 Turbo kan skilte med flere forbedringer fra forgjengeren, og brukere opplever at det er sant.
Også: Zoom får sin første store overhaling på 10 år, drevet av generativ AI
Fra og med torsdag gjenvunnet den oppdaterte versjonen av GPT-4 Turbo, gpt-4-turbo-2024-04-09, sin førsteplass på Large Model Systems Organization (LMSYS) Chatbot Arena, en crowdsourcet åpen plattform der brukere kan evaluere store språkmodeller (LLM).
🔥 ;Spennende nyheter — GPT-4-Turbo har nettopp gjenvunnet nr. 1-plassen på Arena-ledertavlen igjen! Wow!
Vi samler inn over 8K brukerstemmer fra forskjellige domener og observerer dens sterke koding & resonneringsevne fremfor andre. Hatten av for @OpenAI for denne utrolige lanseringen!
Å tilby… pic.twitter.com/IxbN2Q9ecJ— lmsys.org (@lmsysorg) 11. april 2024
I Chatbot Arena kan brukere chatte med to LLM-er side om side og sammenligne svarene deres med hverandre uten å vite identiteten til hver modell .
Etter å ha sett svaret, kan brukere fortsette å chatte til de føler seg komfortable med å avgjøre hvilken modell som vant, om det er uavgjort, eller om de begge er dårlige, som vist nedenfor.  ;
Disse resultatene brukes deretter til å rangere de 82 LLM-ene i Chatbot Arena på ledertavlen, som inkluderer alle de mest populære LLM-ene på markedet som Gemini Pro, Claude 3-familien av LLM-er og Mistral-Large-2402.' xA0;
Fra og med den siste Chatbot Arena-oppdateringen 13. april, har den oppdaterte versjonen av GPT-4 Turbo ledelsen i kategoriene sammenlagt, koding og engelsk.
< p>Også: De beste AI-chatbotene: ChatGPT er ikke den eneste som er verdt å prøve
Dette betyr at mindre enn en måned etter å ha kjørt forbi GPT-4 Turbo i Chatbot Arena, har Anthropics Claude 3 Opus blitt skjøvet til andreplass i den samlede kategorien, etterfulgt av GPT-4-1106-preview, en eldre versjon av GPT-4 Turbo, på tredjeplass.
Disse resultatene kan tilskrives gpt-4-turbo-2024-04-09s forbedrede koding, matematikk, logiske resonnementer og skriveevner, demonstrert av dens høyere ytelse på en rekke benchmarks brukt til å teste ferdighetene til AI-modeller, som vist nedenfor.
OPPDATERING: MMLU-punktene var ikke klare på forrige graf. Her er en oppdatert en. pic.twitter.com/HexJzytDts
— OpenAI (@OpenAI) 12. april 2024
Er du interessert i å sammenligne gpt-4-turbo-2024-04-09s ytelse med andre LLM-er for deg selv? Du kan besøke nettstedet til Chatbot Arena og klikke på Arena (side-ved-side)-alternativet for å velge hvilke modeller du vil sammenligne.
Også: Adobe Premiere Pros to nye AI-verktøy overrasket meg. Se dem i aksjon for deg selv
Det er verdt å merke seg at siden du kjenner identiteten til modellene i side-ved-side-alternativet, vil du ikke kunne stemme. Snarere, hvis du ønsker å kunne stemme og ha den tellingen mot ledertavlen, kan du bruke Arena (kamp)-alternativet for å sammenligne tilfeldige modeller med hverandre.
Hvis du vil hopp heller over testingen og gå rett i bruk gpt-4-turbo-2024-04-09 i ChatGPT, alt du trenger å gjøre er å bli en ChatGPT Plus-abonnent, som koster $20 per måned.