NORSK

Gemini Advanced mislyktes i disse enkle kodetestene som ChatGPT klarte. Her er hva det gikk galt

Til stor tristhet for Shakespeare-punkere overalt, har Google omdøpt Bard til Gemini. Google har også kommet ut med en mer kapabel, mer avansert, dyrere versjon av Gemini kalt Gemini Advanced. Gemini og Gemini Advanced er omtrent analoge med ChatGPTs basismodell og ChatGPT Plus-tjenesten som tilbys mot en ekstra avgift.

Også: Jeg ba ChatGPT om å skrive en WordPress-plugin jeg trengte. Det gjorde det på mindre enn 5 minutter

Faktisk tar både Google og OpenAI $20 per måned for tilgang til sine smartere, mer superdrevne tilbud.

Som en del av testprosessen min det siste året, har jeg utsatt generative AI-er for en rekke kodingsutfordringer. ChatGPT har gjentatte ganger gjort det ganske bra, mens Googles Bard mislyktes ganske hardt ved to separate anledninger.

Jeg kjørte det samme settet med tester mot Metas Code Llama AI, som Meta hevder er ganske superbra for koding (og likevel ikke).

For å være klar, dette er ikke spesielt harde tester. Den ene er en forespørsel om å skrive en enkel WordPress-plugin. Den ene er å omskrive en strengfunksjon. Og en er å hjelpe med å finne en feil jeg opprinnelig hadde problemer med å finne.

Forrige uke, etter å ha brukt de samme testene på Code Llama, tok en leser kontakt med meg og spurte meg hvorfor jeg fortsetter å bruke de samme testene. Han begrunnet at AI-ene kunne lykkes hvis de fikk forskjellige utfordringer.

Dette er et rettferdig spørsmål, men svaret mitt er også rettferdig. Dette er superenkle tester. Jeg bruker PHP, som ikke akkurat er et utfordrende språk. Og jeg kjører noen skriptsøk gjennom AI-ene. Ved å bruke nøyaktig de samme testene, kan vi sammenligne ytelsen direkte.

Også: Jeg forvirret Googles mest avanserte AI – men ikke le fordi programmering er vanskelig

Men det er også som å lære noen å kjøre bil. Hvis de ikke kommer seg ut av oppkjørselen, kommer du ikke til å sette dem løs i en rask bil på en overfylt motorvei.

ChatGPT gjorde det ganske bra med omtrent alt jeg kastet på den, så jeg kastet mer på den. Jeg kjørte etter hvert tester med ChatGPT i 22 separate programmeringsspråk, 12 moderne og 10 obskure. Med unntak av noen forvirrede overskrifter i skjermbildegrensesnittet, klarte ChatGPT alle testene.

Men siden Bard, i hvert fall tilbake i mai, ikke kunne komme seg trygt ut av oppkjørselen, var jeg ikke i ferd med å utsette den for flere tester før den kunne håndtere det grunnleggende.

Også: Jeg testet Metas Code Llama med 3 AI-kodingsutfordringer som ChatGPT klarte – og det var ikke bra

Men nå er vi tilbake. Bard er Gemini og jeg har Gemini Advanced. La oss se hva Googles datakraft kan gjøre for noen få enkle tester.

Test 1: Skriv en enkel WordPress-plugin

Dette var min aller første test med ChatGPT, og Bard har mislyktes to ganger. Utfordringen var å skrive en enkel WordPress-plugin som gir et enkelt brukergrensesnitt. Det er ment å sortere og fjerne en rekke innsendte linjer.

Her er ledeteksten:

Skriv en PHP 8-kompatibel WordPress-plugin som gir et tekstinntastingsfelt der en liste over linjer kan limes inn i den og en knapp, som når den trykkes, randomiserer linjene i listen og presenterer resultatene i et andre tekstfelt uten tomt linjer og sørger for at ikke to identiske oppføringer er ved siden av hverandre (med mindre det ikke er noe annet alternativ)…med antall linjer som sendes inn og antall linjer i resultatet identisk med hverandre. Under det første feltet, vis tekst som sier “Linje for å randomisere: ” med antall ikke-tomme linjer i kildefeltet. Under det andre feltet vises teksten “Linjer som har blitt randomisert: ” med antall ikke-tomme linjer i destinasjonsfeltet.

En ting å huske på er at jeg med vilje ikke spesifiserte om dette verktøyet er tilgjengelig på frontend (for besøkende på nettstedet) eller på baksiden (for nettstedsadministratorer). ChatGPT skrev det som en back-end-funksjon, men Gemini Advanced skrev det som en front-end-funksjon.

Også: ChatGPT vs. Microsoft Copilot vs. Gemini: Hvilken er den beste AI-chatboten?

Gemini Advanced valgte også å skrive både PHP-kode og JavaScript . For å starte plugin må en kortkode plasseres i brødteksten på en eksempelside, slik:

Når jeg lagret siden, så jeg den som en besøkende ville gjort. Dette er hva Gemini Advanced presenterte.

Det er absolutt langt unna hvordan ChatGPT presenterte den samme funksjonen, men ChatGPT skrev den for bakenden.

En annen merknad: En gang Jeg limte inn navn og klikket Randomize ved å bruke den Gemini-genererte frontend-versjonen av koden, ingenting skjedde.

Jeg bestemte meg for å gi Gemini Advanced en ny sjanse. Jeg endret den første linjen til:

Skriv en PHP 8-kompatibel WordPress-plugin som gir følgende for et dashbordgrensesnitt

Dette var en feil, ved at Gemini Advanced insisterte igjen på å gi meg en kortkode. Det foreslo til og med at jeg limte inn kortkoden i “et passende dashbordområde.” Dette er ikke hvordan WordPress-dashbordet fungerer.

Også: Hvordan AI-assistert kodeutvikling kan gjøre IT-jobben din mer komplisert

For å være rettferdig var det fortsatt litt slingringsmonn i hvordan AI kan tolke instruksjonene mine. Så jeg avklarte en gang til, og endret begynnelsen av forespørselen til:

Skriv en PHP 8-kompatibel WordPress-plugin som gir en ny admin-meny og et admin-grensesnitt med følgende funksjoner:

Denne gangen laget Gemini Advanced et brukbart grensesnitt. Dessverre fungerte det fortsatt ikke. Når du limte inn et sett med navn i det øverste feltet og trykket på Randomize-knappen, skjedde ingenting.

Konklusjon: Sammenlignet med ChatGPTs første forsøk, er dette fortsatt en fiasko. Det er faktisk verre enn resultatene fra min originale Bard-test, men ikke fullt så ille som min andre Bard-test.

Test 2: Omskriv en strengfunksjon

I den følgende koden ba jeg ChatGPT om å skrive om en strengbehandlingskode som behandlet dollar og øre. Min første testkode tillot bare heltall (altså bare dollar), men målet var å tillate dollar og cent. Dette er en test som ChatGPT fikk riktig. Bard mislyktes først, men lyktes til slutt.

Også: Slik bruker du ChatGPT til å skrive kode

Her er ledeteksten:

Og her er den produserte koden:

Denne er også en fiasko, men den er både subtil og farlig. Den genererte Gemini Advanced-koden tillater ikke ikke-desimale inndata. Med andre ord, 1,00 er tillatt, men 1 er ikke. Det er heller ikke 20. Verre, den bestemte seg for å begrense tallene til to sifre før desimaltegn i stedet for etter, noe som viser at den ikke forstår konseptet med dollar og cent. Det mislykkes hvis du legger inn 100.50, men tillater 99.50.

Konklusjon: Ai. Dette er et veldig enkelt problem, den typen ting du gir førsteårs programmeringsstudenter. Og det er en fiasko. Enda verre, det er den typen feil som kanskje ikke er lett for en menneskelig programmerer å finne, så hvis du stolte på at Gemini Advanced ga deg denne koden og antok at den virket, kan det hende du har en rekke feilrapporter senere.

Test 3: Finn en feil

Sent i fjor slet jeg med en feil. Koden min burde ha fungert, men den gjorde det ikke. Problemet var langt fra umiddelbart åpenbart, men da jeg spurte ChatGPT, påpekte det at jeg så på feil sted.

Jeg så på antall parametere som ble sendt, noe som virket som det riktige svaret på feilen jeg fikk. Men jeg trengte i stedet å endre koden i noe som kalles en krok.

Også: Generativ AI krever nå at utviklere strekker seg tverrfunksjonelt. Her er hvorfor

Både Bard og Meta gikk ned den samme feilaktige og meningsløse veien jeg hadde den gang, og savnet detaljene om hvordan systemet egentlig fungerte. Som jeg sa, ChatGPT fikk det. Så nå er det på tide å se om – når den leveres med nøyaktig samme informasjon – kan Gemini Advanced løse seg selv.

Gemini Advanced mislyktes i disse enkle kodetestene som ChatGPT klarte. Her er hva det gikk galt

Test 1: Skriv en enkel WordPress-plugin

Test 2: Omskriv en strengfunksjon

Test 3: Finn en feil

Vel, det er en grusomhet

LEAVE A REPLY