GPT-4 Turbo gjenvinner “beste AI-modell” krone fra Anthropic's Claude 3

0
16
719.3142673y Getty Images/sofiana indriani

OpenAI har vært på en varm oppdateringsserie, og gjorde den siste GPT-4 Turbo tilgjengelig for utviklere og betalte ChatGPT-abonnenter forrige uke. Ved lanseringen av modellen delte OpenAI at den nye GPT-4 Turbo kan skilte med flere forbedringer fra forgjengeren, og brukere opplever at det er sant.  

Også: Zoom får sin første store overhaling på 10 år, drevet av generativ AI

Fra og med torsdag gjenvunnet den oppdaterte versjonen av GPT-4 Turbo, gpt-4-turbo-2024-04-09, sin førsteplass på Large Model Systems Organization (LMSYS) Chatbot Arena, en crowdsourcet åpen plattform der brukere kan evaluere store språkmodeller (LLM). 

I Chatbot Arena kan brukere chatte med to LLM-er side om side og sammenligne svarene deres med hverandre uten å vite identiteten til hver modell . 

Etter å ha sett svaret, kan brukere fortsette å chatte til de føler seg komfortable med å avgjøre hvilken modell som vant, om det er uavgjort, eller om de begge er dårlige, som vist nedenfor.&#xA0 ;

Chatbot Arena Skjermbilde av Sabrina Ortiz/ZDNET

Disse resultatene brukes deretter til å rangere de 82 LLM-ene i Chatbot Arena på ledertavlen, som inkluderer alle de mest populære LLM-ene på markedet som Gemini Pro, Claude 3-familien av LLM-er og Mistral-Large-2402.' xA0;

Fra og med den siste Chatbot Arena-oppdateringen 13. april, har den oppdaterte versjonen av GPT-4 Turbo ledelsen i kategoriene sammenlagt, koding og engelsk. 

< p>Også: De beste AI-chatbotene: ChatGPT er ikke den eneste som er verdt å prøve

Dette betyr at mindre enn en måned etter å ha kjørt forbi GPT-4 Turbo i Chatbot Arena, har Anthropics Claude 3 Opus blitt skjøvet til andreplass i den samlede kategorien, etterfulgt av GPT-4-1106-preview, en eldre versjon av GPT-4 Turbo, på tredjeplass. 

Disse resultatene kan tilskrives gpt-4-turbo-2024-04-09s forbedrede koding, matematikk, logiske resonnementer og skriveevner, demonstrert av dens høyere ytelse på en rekke benchmarks brukt til å teste ferdighetene til AI-modeller, som vist nedenfor. 

Er du interessert i å sammenligne gpt-4-turbo-2024-04-09s ytelse med andre LLM-er for deg selv? Du kan besøke nettstedet til Chatbot Arena og klikke på Arena (side-ved-side)-alternativet for å velge hvilke modeller du vil sammenligne.

Også: Adobe Premiere Pros to nye AI-verktøy overrasket meg. Se dem i aksjon for deg selv

Det er verdt å merke seg at siden du kjenner identiteten til modellene i side-ved-side-alternativet, vil du ikke kunne stemme. Snarere, hvis du ønsker å kunne stemme og ha den tellingen mot ledertavlen, kan du bruke Arena (kamp)-alternativet for å sammenligne tilfeldige modeller med hverandre. 

Hvis du vil hopp heller over testingen og gå rett i bruk gpt-4-turbo-2024-04-09 i ChatGPT, alt du trenger å gjøre er å bli en ChatGPT Plus-abonnent, som koster $20 per måned.