NORSK

GPT-4 Turbo gjenvinner “beste AI-modell” krone fra Anthropic's Claude 3

100

OpenAI har vært på en varm oppdateringsserie, og gjorde den siste GPT-4 Turbo tilgjengelig for utviklere og betalte ChatGPT-abonnenter forrige uke. Ved lanseringen av modellen delte OpenAI at den nye GPT-4 Turbo kan skilte med flere forbedringer fra forgjengeren, og brukere opplever at det er sant.

Også: Zoom får sin første store overhaling på 10 år, drevet av generativ AI

Fra og med torsdag gjenvunnet den oppdaterte versjonen av GPT-4 Turbo, gpt-4-turbo-2024-04-09, sin førsteplass på Large Model Systems Organization (LMSYS) Chatbot Arena, en crowdsourcet åpen plattform der brukere kan evaluere store språkmodeller (LLM).

&#x1F525 ;Spennende nyheter — GPT-4-Turbo har nettopp gjenvunnet nr. 1-plassen på Arena-ledertavlen igjen! Wow!
Vi samler inn over 8K brukerstemmer fra forskjellige domener og observerer dens sterke koding & resonneringsevne fremfor andre. Hatten av for @OpenAI for denne utrolige lanseringen!
Å tilby… pic.twitter.com/IxbN2Q9ecJ

— lmsys.org (@lmsysorg) 11. april 2024

I Chatbot Arena kan brukere chatte med to LLM-er side om side og sammenligne svarene deres med hverandre uten å vite identiteten til hver modell .

Etter å ha sett svaret, kan brukere fortsette å chatte til de føler seg komfortable med å avgjøre hvilken modell som vant, om det er uavgjort, eller om de begge er dårlige, som vist nedenfor.&#xA0 ;

Disse resultatene brukes deretter til å rangere de 82 LLM-ene i Chatbot Arena på ledertavlen, som inkluderer alle de mest populære LLM-ene på markedet som Gemini Pro, Claude 3-familien av LLM-er og Mistral-Large-2402.' xA0;

Fra og med den siste Chatbot Arena-oppdateringen 13. april, har den oppdaterte versjonen av GPT-4 Turbo ledelsen i kategoriene sammenlagt, koding og engelsk.

< p>Også: De beste AI-chatbotene: ChatGPT er ikke den eneste som er verdt å prøve

Dette betyr at mindre enn en måned etter å ha kjørt forbi GPT-4 Turbo i Chatbot Arena, har Anthropics Claude 3 Opus blitt skjøvet til andreplass i den samlede kategorien, etterfulgt av GPT-4-1106-preview, en eldre versjon av GPT-4 Turbo, på tredjeplass.

Disse resultatene kan tilskrives gpt-4-turbo-2024-04-09s forbedrede koding, matematikk, logiske resonnementer og skriveevner, demonstrert av dens høyere ytelse på en rekke benchmarks brukt til å teste ferdighetene til AI-modeller, som vist nedenfor.

OPPDATERING: MMLU-punktene var ikke klare på forrige graf. Her er en oppdatert en. pic.twitter.com/HexJzytDts

— OpenAI (@OpenAI) 12. april 2024

Er du interessert i å sammenligne gpt-4-turbo-2024-04-09s ytelse med andre LLM-er for deg selv? Du kan besøke nettstedet til Chatbot Arena og klikke på Arena (side-ved-side)-alternativet for å velge hvilke modeller du vil sammenligne.

Også: Adobe Premiere Pros to nye AI-verktøy overrasket meg. Se dem i aksjon for deg selv

Det er verdt å merke seg at siden du kjenner identiteten til modellene i side-ved-side-alternativet, vil du ikke kunne stemme. Snarere, hvis du ønsker å kunne stemme og ha den tellingen mot ledertavlen, kan du bruke Arena (kamp)-alternativet for å sammenligne tilfeldige modeller med hverandre.

Hvis du vil hopp heller over testingen og gå rett i bruk gpt-4-turbo-2024-04-09 i ChatGPT, alt du trenger å gjøre er å bli en ChatGPT Plus-abonnent, som koster $20 per måned.

LEAVE A REPLY