Gemini Advanced mislyktes i disse enkle kodetestene som ChatGPT klarte. Her er hva det gikk galt

0
35
12get shapecharge/Getty Images

Til stor tristhet for Shakespeare-punkere overalt, har Google omdøpt Bard til Gemini. Google har også kommet ut med en mer kapabel, mer avansert, dyrere versjon av Gemini kalt Gemini Advanced. Gemini og Gemini Advanced er omtrent analoge med ChatGPTs basismodell og ChatGPT Plus-tjenesten som tilbys mot en ekstra avgift.

Også: Jeg ba ChatGPT om å skrive en WordPress-plugin jeg trengte. Det gjorde det på mindre enn 5 minutter

Faktisk tar både Google og OpenAI $20 per måned for tilgang til sine smartere, mer superdrevne tilbud.

Som en del av testprosessen min det siste året, har jeg utsatt generative AI-er for en rekke kodingsutfordringer. ChatGPT har gjentatte ganger gjort det ganske bra, mens Googles Bard mislyktes ganske hardt ved to separate anledninger.

Jeg kjørte det samme settet med tester mot Metas Code Llama AI, som Meta hevder er ganske superbra for koding (og likevel ikke).

For å være klar, dette er ikke spesielt harde tester. Den ene er en forespørsel om å skrive en enkel WordPress-plugin. Den ene er å omskrive en strengfunksjon. Og en er å hjelpe med å finne en feil jeg opprinnelig hadde problemer med å finne.

Forrige uke, etter å ha brukt de samme testene på Code Llama, tok en leser kontakt med meg og spurte meg hvorfor jeg fortsetter å bruke de samme testene. Han begrunnet at AI-ene kunne lykkes hvis de fikk forskjellige utfordringer.

Dette er et rettferdig spørsmål, men svaret mitt er også rettferdig. Dette er superenkle tester. Jeg bruker PHP, som ikke akkurat er et utfordrende språk. Og jeg kjører noen skriptsøk gjennom AI-ene. Ved å bruke nøyaktig de samme testene, kan vi sammenligne ytelsen direkte.

Også: Jeg forvirret Googles mest avanserte AI – men ikke le fordi programmering er vanskelig

Men det er også som å lære noen å kjøre bil. Hvis de ikke kommer seg ut av oppkjørselen, kommer du ikke til å sette dem løs i en rask bil på en overfylt motorvei.

ChatGPT gjorde det ganske bra med omtrent alt jeg kastet på den, så jeg kastet mer på den. Jeg kjørte etter hvert tester med ChatGPT i 22 separate programmeringsspråk, 12 moderne og 10 obskure. Med unntak av noen forvirrede overskrifter i skjermbildegrensesnittet, klarte ChatGPT alle testene.

Men siden Bard, i hvert fall tilbake i mai, ikke kunne komme seg trygt ut av oppkjørselen, var jeg ikke i ferd med å utsette den for flere tester før den kunne håndtere det grunnleggende.

Også: Jeg testet Metas Code Llama med 3 AI-kodingsutfordringer som ChatGPT klarte – og det var ikke bra

Men nå er vi tilbake. Bard er Gemini og jeg har Gemini Advanced. La oss se hva Googles datakraft kan gjøre for noen få enkle tester.

Test 1: Skriv en enkel WordPress-plugin

Dette var min aller første test med ChatGPT, og Bard har mislyktes to ganger. Utfordringen var å skrive en enkel WordPress-plugin som gir et enkelt brukergrensesnitt. Det er ment å sortere og fjerne en rekke innsendte linjer.

Her er ledeteksten:

Skriv en PHP 8-kompatibel WordPress-plugin som gir et tekstinntastingsfelt der en liste over linjer kan limes inn i den og en knapp, som når den trykkes, randomiserer linjene i listen og presenterer resultatene i et andre tekstfelt uten tomt linjer og sørger for at ikke to identiske oppføringer er ved siden av hverandre (med mindre det ikke er noe annet alternativ)…med antall linjer som sendes inn og antall linjer i resultatet identisk med hverandre. Under det første feltet, vis tekst som sier “Linje for å randomisere: ” med antall ikke-tomme linjer i kildefeltet. Under det andre feltet vises teksten “Linjer som har blitt randomisert: ” med antall ikke-tomme linjer i destinasjonsfeltet.

En ting å huske på er at jeg med vilje ikke spesifiserte om dette verktøyet er tilgjengelig på frontend (for besøkende på nettstedet) eller på baksiden (for nettstedsadministratorer). ChatGPT skrev det som en back-end-funksjon, men Gemini Advanced skrev det som en front-end-funksjon.

Også: ChatGPT vs. Microsoft Copilot vs. Gemini: Hvilken er den beste AI-chatboten?

Gemini Advanced valgte også å skrive både PHP-kode og JavaScript . For å starte plugin må en kortkode plasseres i brødteksten på en eksempelside, slik:

shortcode Skjermbilde av David Gewirtz/ZDNET

Når jeg lagret siden, så jeg den som en besøkende ville gjort. Dette er hva Gemini Advanced presenterte.

frontend

Gemini Advanceds første forsøk

Skjermbilde av David Gewirtz/ZDNET

Det er absolutt langt unna hvordan ChatGPT presenterte den samme funksjonen, men ChatGPT skrev den for bakenden. 

chatgpt-versjon

ChatGPTs første forsøk

Skjermbilde av David Gewirtz/ZDNET

En annen merknad: En gang Jeg limte inn navn og klikket Randomize ved å bruke den Gemini-genererte frontend-versjonen av koden, ingenting skjedde.

Jeg bestemte meg for å gi Gemini Advanced en ny sjanse. Jeg endret den første linjen til:

Skriv en PHP 8-kompatibel WordPress-plugin som gir følgende for et dashbordgrensesnitt

Dette var en feil, ved at Gemini Advanced insisterte igjen på å gi meg en kortkode. Det foreslo til og med at jeg limte inn kortkoden i “et passende dashbordområde.” Dette er ikke hvordan WordPress-dashbordet fungerer.

Også: Hvordan AI-assistert kodeutvikling kan gjøre IT-jobben din mer komplisert

For å være rettferdig var det fortsatt litt slingringsmonn i hvordan AI kan tolke instruksjonene mine. Så jeg avklarte en gang til, og endret begynnelsen av forespørselen til:

Skriv en PHP 8-kompatibel WordPress-plugin som gir en ny admin-meny og et admin-grensesnitt med følgende funksjoner:

Denne gangen laget Gemini Advanced et brukbart grensesnitt. Dessverre fungerte det fortsatt ikke. Når du limte inn et sett med navn i det øverste feltet og trykket på Randomize-knappen, skjedde ingenting. 

randomiser

Gemini Advanced sitt tredje forsøk. I testen min inkluderte jeg navn, men utelot dem fra dette skjermbildet fordi de var ekte navn fra dagens e-post. Etter å ha trykket Randomize, dukket ingenting opp i det nederste feltet.

Skjermbilde av David Gewirtz/ZDNET

Konklusjon: Sammenlignet med ChatGPTs første forsøk, er dette fortsatt en fiasko. Det er faktisk verre enn resultatene fra min originale Bard-test, men ikke fullt så ille som min andre Bard-test.

Test 2: Omskriv en strengfunksjon

I den følgende koden ba jeg ChatGPT om å skrive om en strengbehandlingskode som behandlet dollar og øre. Min første testkode tillot bare heltall (altså bare dollar), men målet var å tillate dollar og cent. Dette er en test som ChatGPT fikk riktig. Bard mislyktes først, men lyktes til slutt.

Også: Slik bruker du ChatGPT til å skrive kode

Her er ledeteksten:

regex-q Skjermbilde av David Gewirtz/ZDNET

Og her er den produserte koden:

kode Skjermbilde av David Gewirtz/ZDNET

Denne er også en fiasko, men den er både subtil og farlig. Den genererte Gemini Advanced-koden tillater ikke ikke-desimale inndata. Med andre ord, 1,00 er tillatt, men 1 er ikke. Det er heller ikke 20. Verre, den bestemte seg for å begrense tallene til to sifre før desimaltegn i stedet for etter, noe som viser at den ikke forstår konseptet med dollar og cent. Det mislykkes hvis du legger inn 100.50, men tillater 99.50.

Konklusjon: Ai. Dette er et veldig enkelt problem, den typen ting du gir førsteårs programmeringsstudenter. Og det er en fiasko. Enda verre, det er den typen feil som kanskje ikke er lett for en menneskelig programmerer å finne, så hvis du stolte på at Gemini Advanced ga deg denne koden og antok at den virket, kan det hende du har en rekke feilrapporter senere.

Test 3: Finn en feil

Sent i fjor slet jeg med en feil. Koden min burde ha fungert, men den gjorde det ikke. Problemet var langt fra umiddelbart åpenbart, men da jeg spurte ChatGPT, påpekte det at jeg så på feil sted.

Jeg så på antall parametere som ble sendt, noe som virket som det riktige svaret på feilen jeg fikk. Men jeg trengte i stedet å endre koden i noe som kalles en krok.

Også: Generativ AI krever nå at utviklere strekker seg tverrfunksjonelt. Her er hvorfor

Både Bard og Meta gikk ned den samme feilaktige og meningsløse veien jeg hadde den gang, og savnet detaljene om hvordan systemet egentlig fungerte. Som jeg sa, ChatGPT fikk det. Så nå er det på tide å se om – når den leveres med nøyaktig samme informasjon – kan Gemini Advanced løse seg selv.

prompt Skjermbilde av David Gewirtz/ZDNET figur>

Gemini Advanced så på koden. Og den identifiserte at det er et parameterproblem. Men dens anbefaling er å se “sannsynligvis et annet sted i plugin eller WordPress” for å finne feilen.

cleanshot-2024-02-24-at-19-39-532x

Gemini Advanceds svar.

Skjermbilde av David Gewirtz/ZDNET

Derimot er dette ChatGPTs svar.

feil-med-bruk-filtre-i-wordpress-2023- 04-01-04-02-10

ChatGPTs svar. Klikk på firkanten i hjørnet for å forstørre hvis du vil lese hele saken.

Skjermbilde av David Gewirtz/ZDNET

Se på detaljene i andre avsnitt. ChatGPT identifiserte riktig nøyaktig hvor feilen blir gjort og hvordan den skal rettes. Det er mye mer nyttig enn å anbefale at jeg ser et annet sted i plugin-en.

Konklusjon:Gemini Advanced var bare ikke så nyttig. Ingenting den fortalte meg var noe jeg ikke visste. Og ingenting det fortalte meg hjalp til å løse problemet.

Også: Hva er Google One og er det verdt det?

Vel, det er en grusomhet

Jeg har brukt jevnlig ChatGPT for å gjøre kodingen raskere. På mange måter har det vært fantastisk. For ett prosjekt er jeg overbevist om at det gjorde meg i stand til å bygge noe i løpet av en helg som ellers kunne ha tatt meg en måned eller mer.

Men Gemini Advanced? Det er ingen måte jeg ville åpnet grensesnittet. Ikke bare mislykkes det, men noen av feilene er subtile nok til at de i utgangspunktet kanskje ikke blir lagt merke til, noe som forårsaker alle slags problemer når koden er utgitt.

Også: Hvordan abonnere på ChatGPT Plus (og hvorfor du bør)

Dette er grunnen til at du må være veldig forsiktig når du bruker AI som en kodehjelper. Men med Gemini Advanced er min anbefaling å ganske enkelt unngå det. Jeg ser ingenting det gjør at du på egen hånd ikke kan gjøre det bedre. Og det holder absolutt ikke lys for ChatGPTs fantastiske ytelse.

Og de tar $20 per måned for dette?

Har du prøvd å kode med Gemini, Gemini Advanced, Bard eller ChatGPT? Hva har din erfaring vært? Gi oss beskjed i kommentarene nedenfor.

Du kan følge mine daglige prosjektoppdateringer på sosiale medier. Sørg for å abonnere på mitt ukentlige oppdateringsnyhetsbrev på Substack, og følg meg på Twitter på @DavidGewirtz, på Facebook på Facebook.com/DavidGewirtz, på Instagram på Instagram.com/DavidGewirtz og på YouTube på YouTube.com/DavidGewirtzTV.< /p>