
Med mindre du har gjemt deg på en øde øy et sted uten noen internetttjeneste, vet du sannsynligvis at OpenAI ga ut sin nye store språkmodell, GPT-4o, hvor “o" står for "omni." Den nye LLM skal tilby en rekke moduser, inkludert tekst, grafikk og stemme.
I denne artikkelen utsetter jeg den nye GPT-4o-modellen for mitt standardsett med kodingstester. Jeg har kjørt disse testene mot et bredt spekter av AI-er med et bredt spekter av resultater. Du vil lese helt til slutten fordi jeg fikk et overraskende resultat.
Hvis du vil følge med på dine egne tester, peker du på denne artikkelen i nettleseren: < strong>Hvordan jeg tester en AI-chatbots kodingsevne – og det kan du også.
Den inneholder alle standardtestene jeg bruker, sammen med forklaringer på hvordan de fungerer og hvordan de skal se ut for i resultatene.
Og med det, la oss grave i resultatene av hver test og se hvordan de er sammenlignet med tidligere tester med Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced og ChatGPT.
1. Skrive en WordPress-plugin
Her er GPT-4o's brukergrensesnitt:
Dette var den første. GPT-4o bestemte seg for å inkludere en JavaScript-fil som førte til at antall linjer i begge feltene oppdateres dynamisk. Siden forespørselen ikke spesifiserte at JavaScript ikke var tillatt, er det en kreativ løsning.
Mer til poenget, det fungerer. JavaScript styrer også Randomize-knappen, så hvis du trykker Randomize-knappen flere ganger, får du flere sett med resultater uten at hele siden oppdateres.
Også: ChatGPT vs. ChatGPT Pluss: Er et betalt abonnement fortsatt verdt det?
Linjene var riktig ordnet. Duplikater ble separert fra hverandre i henhold til spesifikasjonen. Dette er en fullstendig brukbar kodebit.
Min eneste klage er at Randomize-knappen ikke eksisterer på en egen linje. Jeg sa imidlertid ikke til ChatGPT om å sette den på sin egen linje, så det er ikke AI-enhetens feil at den er ordnet som den er.
Her er de samlede resultatene av denne og tidligere tester:
ChatGPT GPT-4o: Grensesnitt: bra, funksjonalitet: braMicrosoft Copilot: Grensesnitt: tilstrekkelig, funksjonalitet: feilMeta AI: strong> Grensesnitt: tilstrekkelig, funksjonalitet: feilMetakode Lama: Fullstendig feilGoogle Gemini Advanced: Grensesnitt: bra, funksjonalitet : failChatGPT: Grensesnitt: bra, funksjonalitet: bra
2. Omskriving av en strengfunksjon
Denne testen er laget for å teste konverteringer for dollar og cent. ChatGPT GPT-4o AI skrev om koden på riktig måte, og tillot ikke inndata som ville føre til at påfølgende kodelinjer mislyktes hvis en riktig verdi for dollar og cent ikke ble sendt inn.
Også:  ;6 måter OpenAI bare superladet ChatGPT for gratisbrukere
Jeg var litt skuffet over at koden tillater et ledende desimaltegn (dvs. 0,75), men ikke setter en null foran verdien (som i 0,75). Men behandlingskoden for dollar og øre ville være i stand til å forstå versjonen uten den originale nullen, og ville ikke mislykkes.
Siden jeg ikke eksplisitt ba om en foranstilt null i så fall, er det ikke noe Jeg skal overta AI. Dette viser imidlertid hvordan, selv om en AI leverer brukbar kode, kan det være lurt å gå inn igjen og justere forespørselen for å få mer av det du virkelig vil se.
Her er de samlede resultatene av denne og tidligere tester:
ChatGPT GPT-4o: VellykketMicrosoft Copilot: MislyktesMeta AI:& #xA0;FailedMeta Code Llama: VellykketGoogle Gemini Advanced: FailedChatGPT: Vellykket
3. Finne en irriterende feil
Dette er en interessant test fordi svaret ikke umiddelbart er åpenbart. Jeg ble opprinnelig stumpet da jeg fikk denne feilen under koding, så jeg matet den inn i den første ChatGPT-språkmodellen. På det tidspunktet ble jeg imponert fordi den faktisk fant feilen med en gang.
Også: Hvordan Adobe håndterer AI-etiske bekymringer samtidig som det fremmer kreativitet
Derimot savnet tre av LLM-ene jeg testet feilretningen som ligger i dette problemet. I utgangspunktet, fra den presenterte feilmeldingen, ser det ut til at feilen er i en del av koden, men feilen er faktisk i et helt annet område av koden, noe du (eller en AI) ikke ville vite om du visste. ikke ha dyp kjennskap til, i dette tilfellet, WordPress-rammeverket.
Den gode nyheten: ChatGPT GPT-4o fant problemet og beskrev løsningen korrekt.
Her er de samlede resultatene av denne og tidligere tester:
ChatGPT GPT-4o: VellykketMicrosoft Copilot: Mislyktes. Spektakulært. Entusiastisk. Emojisk.Meta AI: VellykketMetakode Lama: FailedGoogle Gemini Advanced: MislykketChatGPT: Vellykket
Så langt er vi på tre av tre seire. La oss gå videre til vår siste test.
4. Skrive et skript
Som svaret på denne testen ga ChatGPT GPT-4o meg et svar som faktisk var litt mer enn jeg ba om.
Tanken med denne testen er at den spør om et ganske obskurt Mac-skriptverktøy kalt Keyboard Maestro, samt Apples skriptspråk AppleScript og Chrome-skriptatferd. For ordens skyld er Keyboard Maestro en av de største enkeltårsakene til at jeg bruker Mac over Windows for min daglige produktivitet, fordi det lar hele operativsystemet og de forskjellige applikasjonene omprogrammeres for å passe mine behov. Det er så kraftig.
Også: Hvordan bruke ChatGPT til å skrive kode: Hva det kan og ikke kan gjøre for deg
Uansett, for å bestå testen, må AI-en beskrive hvordan man løser problemet ved hjelp av en blanding av Keyboard Maestro-kode, AppleScript-kode og Chrome API-funksjonalitet.
Som du kan se, ChatGPT GPT -4o ga meg to versjoner.
Begge versjonene snakket ordentlig med Keyboard Maestro, men de er forskjellige når det gjelder hvordan de takler å ignorere kasus. Den til venstre var faktisk feil fordi AppleScript ikke har en “som liten” bokstav. evne. Koden til høyre, som brukte "inneholder" og skiller mellom store og små bokstaver, fungerte.
Jeg skal gi GPT-4o en bestått karakter fordi den ga en kode som fungerte. Men det er en forsiktig beståttkarakter fordi den burde gitt bare ett alternativ, og det alternativet burde vært riktig. Det den gjorde i stedet var at jeg måtte evaluere begge resultatene og velge. Det kunne ha tatt like lang tid som det ville ha tatt å bare skrive koden selv.
Her er de samlede resultatene av denne og tidligere tester:
ChatGPT GPT-4o:< /strong> Vellykket, men med forbeholdMicrosoft Copilot: MislyktesMeta AI: FailedMeta Code Llama: Failed Google Gemini Advanced: VellykketChatGPT: Vellykket
Samlede resultater
Her er de samlede resultatene fra de fem testene:
ChatGPT GPT-4o: 4 av 4 lyktes, men det er en merkelig dual- valg svarMicrosoft Copilot: 0 av 4 lyktesMeta AI: 1 av 4 lyktesMeta Code Llama:  ;1 av 4 lyktesGoogle Gemini Advanced: 1 av 4 lyktesChatGPT: 4 av 4 lyktes
Frem til nå har min standard gå til for programmeringshjelp vært ChatGPT. Det har bare fungert (bortsett fra når det ikke gjorde det). Alle de andre AI-ene mislyktes de fleste av kodetestene mine. Men GPT-4o er rart. Det siste svaret fikk på en måte opp hårene i nakken.
Jeg er ikke begeistret for å få to svar på ett spørsmål, spesielt når ett svar inneholder kode som språket i seg selv ikke støtter. Hva skjer inne i GPT-4o som forårsaker dette tapet av tillit?
I alle fall er det fortsatt den beste kunstige intelligensen for mine kodingstester, så jeg kommer nok til å fortsette å bruk den og bli mer kjent med GPT-4o. Et annet alternativ er å gå tilbake til GPT-3.5 eller GPT-4 i ChatGPT Plus. Følg med. Neste gang ChatGPT oppdaterer modellen sin, kommer jeg definitivt til å kjøre disse testene på nytt og se om det er smart nok til å velge riktig svar for alle fire testene.
Har du prøvd å kode med Copilot, Meta AI, Gemini eller ChatGPT? Hva har din erfaring vært? Gi oss beskjed i kommentarene nedenfor.