En one-word Turing Test antyder, ‘overbygning’ er, hvad der adskiller os fra maskinerne

0
105

Forestil dig, at du bor i nogle dystopisk fremtid, og du er blevet beskyldt for at være en avanceret AI, som er forbudt i dette samfund. Straffen er døden, og for at overbevise den dommer, der skal afgøre din skæbne, du kan sige blot et ord, ethvert ord, som du kan lide, fra ordbogen, for at bevise, at du er af kød og blod. Hvad vælger du?

Det lyder som om opsætningen for en teatralsk sci-fi-kort, men dette er faktisk en del af en nysgerrig papir fra et par af forskere ved MIT på noget, de kalder “Minimal Turing-Test”.

I stedet for en maskine, der forsøger at overbevise nogen, de er mennesker gennem samtale — der var den forudsætning for den oprindelige Turing-Test, der er beskrevet af den Britiske forsker Alan Turing i sin skelsættende 1950 papir “Computing Machinery and Intelligence” — den Minimale Turing Testen anmoder om, at bare et enkelt ord, enten vælges helt frit eller plukket fra et par ord.

De forskere, der har ansvaret, John McCoy og Tomer Ullman, præcisere, at den Minimale Turing-Test er ikke et benchmark for AI fremskridt, men en måde at undersøge, hvordan mennesker ser sig selv i forhold til maskiner. Dette spørgsmål kommer til at blive mere og mere relevant i en verden fyldt med AI-assistenter, deepfaked mennesker, og Google auto svar håndtering af dine e-mail. I en verden af menneske-lignende AI, hvad tror vi, vi adskiller os? Hvad gør os anderledes?

I den første af McCoy og Ullman to tests, 936 blev deltagerne bedt om at vælge et ord, de kunne godt lide, at de troede kunne være bevis for deres menneskelighed. På trods af den gratis vifte af valgmuligheder, resultaterne er samlet i et lille antal temaer. De fire oftest plukket ord var “kærlighed” (134 svar), “medfølelse” (33 svar), “menneske” (30 svar), og “du” (25 svar), som udgjorde en fjerdedel af alle svar. Andre klynger var empati (ord som “følelser”, og “følelser” og “sympati”), og tro og tilgivelse (ord som “barmhjertighed,” “håb” og “gud”).

Alt i alt 936 svar, der er omfattet 428 enkelte ord, som ligger i en imponerende mængde af samhørighed.

Svar fra den ene-word test viser de mest populære enkelt svar var “kærlighed”.

Billede af McCoy og Ullman / MIT

I den anden test, 2,405 deltagerne havde at vælge mellem par af ord, for at afgøre, hvilken af de to, de troede, var givet af et menneske og en maskine. Igen, ord som “love”, “human”, og “du” fået stærkt, men det vindende ord var enklere og tydeligt biologiske: “overbygning.” Ja, ud af alle de ord bindinger, “overbygning” blev valgt oftest til at betegne selve essensen og sjæl af menneskeheden. Poop.

Tale til Randen, McCoy MIT ‘ s Sloan Neuroeconomics Laboratorium, understregede, at testen var mere om social psykologi end datalogi.

“Vi ser det ikke bliver brugt som det næste CAPTCHA,” McCoy siger. “Den praktiske anvendelse af det har i AI edb-rum er mere, når du tænker på user interface design og ting som det. I disse sammenhænge, er det måske nyttigt at vide, hvordan folk mener om computere, og hvad de tror, der adskiller dem.”

Turing-Test er ikke en god målestok for AI intelligens af sig selv

Dette giver mening, da selv den oprindelige Turing-Test har længe faldet ud af favor med dataloger som en test af maskinen intelligens. Kritikere siger, at det tester evnen af programmører til at finde samtale hacks, der kan narre mennesker mere end intelligens.

For eksempel, i 2014, nyheder dækning udtalt, at Turing-Test havde været forbi en chatbot. Programmører lokket dommere ved at have deres bot identificere sig som en 13-år-gamle ukrainske dreng ved navn Eugene Goostman. Dette gav den perfekte dækning for bot ‘ s mange fejl og dets manglende evne til at besvare visse spørgsmål. Som kritikere som datalog Gary Marcus bemærkede, “Hvad Goostman sejr virkelig afslører … er ikke fremkomsten af SkyNet eller cyborg kultur, men snarere den lethed, hvormed vi kan narre andre.”

Men dette er ikke til at sige, at Turing-Test er ubrugelig. Oprettelse af edb-programmer, der kan chatte på overbevisende måde er en frugtbar udfordring for AI-forskere, som kan gavne menneskeheden. Testen er også stadig en fantastisk tanke eksperiment, der kan hjælpe os med at udforske komplekse spørgsmål omkring vores forståelse af intelligens. Vi kan også ændre det til at skærpe fokus ved at spørge computere ikke blot chat, men til at besvare spørgsmål, der kræver en nuanceret og rig forståelse af verden. (Et eksempel er at spørge en computer, “Hvad er flertalsformer af ‘platch’ og ‘snorp’?” Et menneske ville sandsynligvis svare “platches” og “snorps,” på trods af det faktum, at disse ord er noget vrøvl, og ikke kan findes i en ordbog).

Det er i denne forbindelse, at den Minimale Turing-Test er bedst værdsat som et tankeeksperiment, ikke et benchmark for AI fremskridt. McCoy siger, hvad der overraskede ham mest om den forskning, der var bare hvor meget kreativitet der var i svarene. “Folk kom op med alle mulige interessante shibboleths og ordspil,” siger han, med ord som “bootylicious” “supercalifragilisticexpialidocious.” (Prøv at stave det uden at Google).

“Det fortæller du noget om forskellen mellem mennesker og intelligente robotter,” siger McCoy, “at folk, der aldrig har haft til at tænke over denne situation, før de kom op med en masse smart og sjove resultater.” Det er noget, med andre ord, at en computer, der ville kæmpe med.