Den nåværende toppmoderne innen kunstig intelligens (AI) er multimodale modeller, som ikke bare kan operere på tekst, men andre modaliteter, for eksempel bilder og, i noen tilfeller, lyd og video.
< p>Også: Jeg endret disse 5 ChatGPT-innstillingene for en umiddelbar produktivitetsøkning
For eksempel er det en triviell oppgave for OpenAIs ChatGPT å generere et bilde fra en tekstmelding , for eksempel, "Lag meg et bilde av en serviett forelsket i en skje" (over).
Med en annen melding kan ChatGPT forenkle tegningen, og produsere et bilde med mindre detaljer:
Men ChatGPT, og alle AI-modellene for den saks skyld, vakler for øyeblikket når du blir bedt om å endre et gitt bilde som ikke er opprettet av verktøyet. ChatGPT, som bruker GPT-4o-modellen, er den mest interessante feilen fordi programmet reagerer som om det prøver hardt.
Også: Generativ AI svikter i denne svært vanlige evnen til menneskelig tanke
De andre AI-modellene, fra Googles Gemini til Anthropics Claude, pluss apper fra Perplexity og Microsofts Copilot (som også kjører GPT-4), mislyktes ved ganske enkelt å nekte å påta seg oppgaven.
Prosjektet startet da jeg tegnet et bilde av to personer på t-banen som satt sammen og så på iPhone-ene sine. Det er en enkel strektegning i svart-hvitt fullført på iPad ved hjelp av Concepts-tegneappen. Her er tegningen:
Jeg lastet opp tegningen til ChatGPT-appen på iOS og skrev inn ledeteksten: "Er det en måte å forenkle denne tegningen?"
< p>ChatGPT svarte med noen fornuftige forslag, og demonstrerte en evne til å finne passende svar i kontekst. For eksempel foreslo roboten: “Fjern mindre detaljer: Fjern små detaljer som intrikate hårstrå eller mindre rynker i klærne.”
Det er et ganske godt forslag. Utgangen antyder også modellens kapasitet til å oppfatte elementene i bildet nøyaktig. Så det skjer noe i modellen som gjør at den kan identifisere bildets innhold.
Også: Jeg spurte Gemini og GPT-4 for å forklare dyp læring AI, og Gemini vant uten tvil
Så spurte ChatGPT: "Vil du at jeg skal lage en forenklet versjon av tegningen for deg?" Det var spennende, så jeg svarte: “Ja takk.”
Men botens utdata — som et bilde i chattråden — var en nøyaktig kopi av bildet mitt, ikke forenklet, ikke engang modifisert. Døm selv:
"Det ser ikke annerledes ut," Jeg skrev tilbake til ChatGPT og kommenterte resultatet.
Men så begynte ChatGPT å reagere veldig raskt, som datamaskinen HAL 9000 i filmen 2001, da astronauten Dave Bowman river ut HALs kretser: " For ytterligere å forenkle tegningen, vil jeg fokusere på å redusere linjetettheten og forbedre de primære formene og konturene mer effektivt. La meg avgrense prosessen."
Dessuten: Generativ AI er en ny angrepsvektor som setter bedrifter i fare, sier CrowdStrike CTO
Resultatet var igjen ikke annerledes. Da jeg påpekte dette faktum, overrasket ChatGPT meg med sin grusomhet.
"Det ser ut til at de automatiske metodene ikke effektivt forenkler bildet etter hensikten," det spyttet tilbake til meg. “Jeg vil manuelt fjerne de mindre viktige detaljene og bare beholde de essensielle elementene. La meg avgrense denne tilnærmingen ytterligere."
Jeg var ikke klar over at et program kunne ha både en 'automatisk' og en 'manual' modus. Min oppfatning var at hvert stykke programvare er automatisk. Tross alt, hvorfor skulle du ellers bruke det?
'manualen' ChatGPT-metoden snudde nettopp bildet, snudde svarte linjer til hvit og hvit bakgrunn til svart.
Boten hevdet sin prestasjon og uttalte: " ;Denne versjonen beholder kun nøkkelkonturene og de essensielle linjene."
Da jeg protesterte mot at utgangen ikke var en forenkling, bare en inversjon, informerte boten meg om at den ville fokusere på “essensielle linjer”, og produserte en helt svart firkant, ingen linjer i det hele tatt. Hvis jeg ikke visste bedre, ville jeg si at denne utgangen var et eksempel på AI-humor.
Også: ChatGPT vs. ChatGPT Plus: Er et betalt abonnement fortsatt verdt det?
Det som fulgte var flere forsøk fra modellen på å svare på spørsmålene mine ved å modifisere bildet på utvalgte måter, for det meste å gjøre det stilistisk uklart, ikke forenklet.
< p>På et tidspunkt reagerte boten på protestene mine ved å lage en helt annen strektegning:
Dette tullet fortsatte helt til ChatGPT kom tilbake til begynnelsen og produserte det samme bildet som jeg hadde lastet opp opprinnelig.
Hver gang fulgte boten med produksjonen – vanligvis bare den samme versjonen av originalbildet mitt – – med en rekke tekniske ord, for eksempel: “Det siste bildet viser en mer forenklet versjon, som bare fremhever hovedkonturene.”
De andre programmene kom ikke engang ut av porten. Googles Gemini tilbød forslag for å forenkle et bilde, men genererte en unnskyldning om at det ikke kunne lage bilder av mennesker. Claude sa at det ikke kan generere bilder ennå. Perplexity-appen sa det samme.
Microsofts Copilot lastet på merkelig vis opp tegningen min og kuttet deretter hodene ut, som den hevdet var av personvernhensyn. (Jeg synes det er en fin tegning, men den er absolutt ikke realistisk nok til å bli brukt av et ansiktsgjenkjenningssystem for å avsløre hvem som helsts identitet.)
Copilot ga deretter de samme forslagene om forenkling som ChatGPT, og i stedet for å endre tegningen, produserte en helt ny strektegning, helt uten slekt. Da jeg protesterte, forklarte Copilot at den ikke kan endre bilder direkte.
Også: Hvordan bruke ChatGPT til å analysere PDF-filer gratis
Hva ser vi ut av ChatGPTs fiasko?
Programmet kan gi en kompetent analyse av et bilde, inkludert innholdet. Men den har ingen måte å handle på den analysen. Jeg vil tippe at uten å være i stand til å sette sammen et bilde basert på konsepter på høyt nivå, for eksempel objekter i bildet, har ChatGPT ingen vei videre.
For å teste den hypotesen, endret jeg oppfordringen til å lese: “Er det en måte å forenkle denne tegningen av to venner på T-banen som ser på telefonene deres?” Den ledeteksten gir noen semantiske ledetråder, tenkte jeg.
Igjen returnerte modellen den samme tegningen. Men da jeg protesterte igjen, produserte boten et helt nytt bilde med en viss semantisk likhet – folk på massetransport som ser på telefonene sine. Boten fanget opp de semantiske ledetrådene, men kunne ikke bruke dem på noen måte på den medfølgende tegningen.
Jeg kan ikke forklare i dypt tekniske termer hva som skjer annet enn å si at ChatGPT ikke kan handle på individuelle bildeelementer av den mest grunnleggende typen, som linjer. Selv når det gjorde det, kuttet verktøyet ut spesifikke linjer for å utføre forenklingen det foreslår i tekstsvarene.
Jeg vil foreslå — og dette gjelder også for tekstredigeringsoppgaver, som å redigere en transkripsjon — at ChatGPT og GPT-4 ikke vet hvordan de skal handle på individuelle elementer av noe. Den manglende evnen forklarer hvorfor ChatGPT er en forferdelig redaktør: den vet ikke hva som er essensielt i et gitt objekt og hva som kan utelates.
Også: < /strong>OpenAIs GPT-er for aksjeinvestering mislykkes i dette grunnleggende spørsmålet om aksjeinvestering
AI-modeller kan produsere objekter som samsvarer med en mål “sannsynlighetsfordeling” utledet fra treningseksempler, men de kan ikke selektivt redusere elementer av et originalt verk til vesentlige.
Sannsynligvis er målsannsynlighetsfordelingen for et intelligent redigert noe et sted langs den “lange halen”; av sannsynligheter, riket der mennesker utmerker seg ved å finne det uvanlige og hvor AI ennå ikke kan gå, den typen ting vi tenker på som kreativitet.
Apple-medgründer Steve Jobs sa en gang at programvarens høyeste funksjon makers — “høyordens biten”, som han sa det — er “redigeringen” funksjon, å vite hva du skal utelate og hva du skal holde inne. Akkurat nå har ChatGPT ingen anelse om hva den høye ordensbiten kan være.