Claude 3 overtar GPT-4 i duellen mellom AI-robotene. Slik kommer du inn i handlingen

0
22
Anthropic's Claude 3 AI Skjermbilde av Lance Whitney/ZDNET

Move over, GPT-4. En annen AI-modell har tatt over ditt territorium, og han heter Claude.

Denne uken tok Anthropics Claude 3 Opus AI LLM førsteplassen blant rangeringene på Chatbot Arena, et nettsted som tester og sammenligner effektiviteten til forskjellige AI-modeller. Med en av GPT-4-variantene presset ned til andreplass på nettstedets ledertavle, markerte dette første gang Claude overgikk en AI-modell fra OpenAI.

Chatbot Arena Leaderboard Chatbot Arena

Tilgjengelig på Claude 3-nettstedet og som API for utviklere, er Claude 3 Opus en av tre LLM-er som nylig er utviklet av Anthropic, med Sonnet og Haiku som fullfører trioen. Ved å sammenligne Opus og Sonnet, anslår Anthropic Sonnet som to ganger raskere enn de tidligere Claude 2- og Claude 2.1-modellene. Opus tilbyr hastigheter som ligner på de tidligere modellene, ifølge selskapet, men med mye høyere nivåer av intelligens.

Også: De beste AI-chatbotene: ChatGPT og alternativer

Chatbot Arena ble lansert i mai i fjor, og er opprettelsen av Large Model Systems Organization (LMYSY Org), en åpen forskningsorganisasjon grunnlagt av studenter og fakultet fra University of California, Berkeley. Målet med arenaen er å hjelpe AI-forskere og fagfolk til å se hvordan to forskjellige AI LLM-er klarer seg mot hverandre når de blir utfordret med de samme spørsmålene.

Chatbot Arena bruker en crowdsourcet tilnærming, noe som betyr at hvem som helst kan ta det en tur. Arenaens chat-side presenterer skjermer for to av mulige 32 forskjellige AI-modeller, inkludert Claude, GPT-3.5, GPT-4, Googles Gemini og Meta's Llama 2. Her blir du bedt om å skrive et spørsmål i ledeteksten nederst. Men du vet ikke hvilken LLM som er tilfeldig og anonymt valgt for å håndtere forespørselen din. De er ganske enkelt merket Model A og Model B.

Også: Hva står GPT for? Forstå GPT 3.5, GPT 4 og mer

Etter å ha lest begge svarene fra de to LLM-ene, blir du bedt om å rangere hvilket svar du foretrekker. Du kan gi et nikk til A eller B, rangere begge likt, eller velge en tommel ned for å signalisere at du ikke liker noen av dem. Etter at du har sendt inn vurderingen din, avsløres først navnene på de to LLM-ene.

Velg ditt favorittsvar Chatbot Arena

Teller stemmene som er sendt inn av brukere av siden, samler LMYSY-organisasjonen totalsummene på ledertavlen som viser hvordan hver LLM presterte. Med de siste rangeringene fikk Claude 3 Opus 33 250 stemmer med andreplass GPT-4-1106-forhåndsvisning som fikk 54 141 stemmer.

For å rangere AI-modellene går ledertavlen til Elo-rangeringssystemet, en metode ofte brukt i spill som sjakk for å måle effektiviteten til forskjellige spillere. Ved å bruke Elo-systemet ga den nyeste ledertavlen Claude 3 Opus en rangering på 1253 og GPT-4-1106-preview en rangering på 1251.

Andre LLM-varianter som klarte seg godt i den siste duellen inkluderer GPT-4 -0125-forhåndsvisning, Googles Gemini Pro, Claude 3 Sonnet, GPT-4-0314 og Claude 3 Haiku. Med GPT-4 ikke lenger på førsteplass og alle tre av de nyeste Claude 3-modellene blant de ti beste, gjør Anthropic definitivt mer på den totale AI-arenaen.