DANSK

Nej, dette AI kan ikke afslutte din sætning

111

Google ‘ s DeepMind arbejder for at forbedre AI
ZDNet ‘ s Tiernan Ray fortæller Karen Roby om, hvad Googles DeepMind gør for at forbedre AI, og hvor mennesker kan spille en større rolle i fastlæggelsen af den succes fra fiasko end oprindeligt tænkt. Læs mere: https://zd.net/2VYP0oj

Den hype omkring kunstig intelligens har fået så vildledende, at deflatere det er blevet til en dybere mening af nogle forskning på området.

Tag, for eksempel, et subtilt sønderlemmende rapport lægger ud i denne uge af Allen Institute for Kunstig Intelligens og Paul Allen School of Computer Science ved University of Washington. Forsker Rowan Zellers og kolleger følge op på arbejde sidste efterår viste, at de kunne stump nogle af de bedste naturligt sprog forarbejdning af neurale netværk med en gruppe dumme engelske sætninger.

I det nye arbejde, bliver de presset til at vise state-of-the-art sprog modeller kan stadig ikke grund korrekt, om hvad straffen bør følge en anden.

De tager også et angreb på de fattige journalistiske dækning af den disciplin. Zellers og kolleger opmærksom på, at en artikel i New York Times fra November udbasuneret, at Google ‘ s “Bert” naturligt sprog neurale netværk var i stand til at slå deres oprindelige udfordring. “Endelig, en Maskine, Der Kan Afslutte Din Sætning,” kørte overskriften af det Gange-stykke.

Nå, tilsyneladende ikke. I denne nye rapport, Zellers team viser, at ved at komme op med punktum afslutninger der bliver mere og mere absurd, at de kan narre selv fattige Bert ind i et forkert svar.

allen-institute-hellaswag-test-illustration-may-2019.png

“Den menneskelige præstation er over 95%” i forsøg på at færdiggøre sætninger, de rapport, “samtidig med at den samlede model ydeevne, er under 50% for hver model”, herunder Googles Bert.

“Den underliggende opgave forbliver uopklaret,” de skriver, hvilket betyder, at opgaven med at forstå naturlige sprog, som grundlag for at antage, evnen til at udlede én ting fra en anden den måde, mennesker gør.

Forfatterne skriver, at deres arbejde viser, Bert og ting som det er ikke at lære noget “robust fornuftig argumentation.” Hvad de rent faktisk gør, er at beherske en bestemt datasæt, noget, de kalder “hurtig overflade elever” — picking up på symboler som disse stilistiske træk.

I virkeligheden, Zellers og selskabet gå længere, teoretisering en meget hård vej for at lære en sådan argumentation. Rapporten foreslår, at hvis man i stigende grad skralder op i den kriseramte af sådanne datasæt til stub hver ny generation af sprog model, som Google eller nogen anden kan foreslå en slags våbenkapløb kunne opstå. Det potentielle resultat er, at det kunne tænkes at tage 100.000 år af en grafikprocessor, eller GPU, at nå frem til “human” nøjagtighed på tests.

Også: Hvorfor er AI rapportering så slemt?

“Ekstrapolere fra en eksponentiel passer tyder på, at nå menneskers ydeevne på vores datasæt ville kræve 109 GPU timer, eller 100k år-medmindre algoritmisk forbedringer, der er lavet,” skriver de.

Selv titlen på det nye arbejde, sendt på arXiv pre-print server, indebærer en vis utålmodighed med den hype: “HellaSwag: Kan en Maskine, der Virkelig er Færdig med Din Sætning” — bemærk kursiv!

HellaSwag er den nye udgave af deres “Swag” test fra August. Tyvekoster står for “Situationer Med Kontradiktorisk Generationer.” Det er et sæt af sætning afslutning opgaver, der er designet til at være svært for de bedste naturligt sprog forarbejdning teknologi, som Bert.

I det oprindelige papir, forfatterne fandt videoer fra Nettet og fik menneskelige “crowd arbejdere” at skrive to tekster, en for en første og en anden frame i en video, frames, der fulgte den ene efter den anden.

Den udfordring af sproget modeller som Bert var at vælge, hvilken af flere alternative forslag til den anden billedtekst var mest logisk som en opfølgning på den første, i form af en multiple-choice-spørgsmål.

For at gøre det vanskeligt, Zellers & Co. fyld den menneskelige billedtekst blandt tre suppleanter, der blev genereret af et neuralt netværk.

Et eksempel på besvarelsen af et spørgsmål, at computeren pålideligt fumler. Forfatterne postulerer, Bert er picking up på ord om teknologi, når det vælger det forkerte svar, svar d, i pink, versus de rigtige svar, svar c.

Allen Institute for Kunstig Intelligens.

For eksempel, hvis den første billedtekst lyder: “lady viser, indpakning af gaver ved hjælp af hendes fødder,” og efterfølges af et navneord, “The lady”, en korrekte anden billedtekst, skrevet af mennesker, ville være “skærer papir med en saks.” En misvisende overskrift, der genereres af computeren, ville være, “tager desserter fra feltet, og fortsætter med at tale til kameraet.”

Zellers og firma at vælge den bedste vildledende svar ved at finde dem, der er mest real-tilsyneladende, en proces, som de kalder “kontradiktorisk filtrering.” Hjælp en gruppe af neurale netværk, de holder generering af billedtekster, indtil disse neurale netværk kan ikke længere skelne mellem hvad der er et menneske-en der har skrevet teksten, og hvad der er computer-genereret.

Med et sæt af sætninger i hånden, de udfordrede Bert og de andre modeller at vælge den sætning, der er den mest logiske anden billedtekst, menneske-genereret en.

Også: OpenAI har en intetsigende tekst bot, og jeg har stadig et skriftligt job

De væsentlige genereret tekst med et neuralt netværk til at narre en neurale netværk.

Som de udtrykte det, “at kaste i den mest kendte generator (GPT), og de bedst kendte forskel (BERT – Large), lavede vi et datasæt, som er kontradiktorisk — ikke kun til BERT, men til alle modeller, vi har adgang til.”

Der er en slags poetisk skønhed i den fremgangsmåde, hvis du nogensinde har set intetsigende nonsens, der genereres af et naturligt sprog model som OpenAI “GPT.” (De faktisk brugte GPT-i HellaSwag til at generere vildledende sætninger.)

I det nye papir, HellaSwag — den nye præfiks står for “Hårdere Afslutninger, Længere Sammenhænge, og Lav-Shot Aktiviteter” — Zellers og kolleger føjet til den oprindelige test ved at plukke ud af punktum-svar eksempler fra Wikihow, den hjemmeside, der besvarer de mest almindelige spørgsmål.

Skal læse

Hvad er AI? Alt hvad du behøver for at knowWhat er dyb læring? Alt hvad du behøver for at knowWhat er machine learning? Alt hvad du behøver for at knowWhat er cloud computing? Alt, hvad du behøver at vide

De finder, at Bert er meget værre til at plukke ud af, hvilke sætninger der er et svar på Wikihow spørgsmål. Givet en Wikihow opgave, som hvad de skal gøre, hvis du er ude at køre og kommer til et rødt lys, Bert og andre modeller pick forkerte svar, som “stop for ikke mere end to sekunder.” I virkeligheden, Bert picks ud af det rigtige svar, at kun 45% af den tid på sådan en test.

Hvad foregår der i alt dette? Zellers og kolleger mener, den frustration, Bert på denne nye test viser, hvor overfladisk en masse at lære sprog er.

Bert og modeller som “ELMo”, udviklet af Allen Institute, er at “samle op på datasæt-specifikke fordelingsmæssige skævheder.”

Forfatterne undersøger, hvordan disse sprog-systemer, når de strimler væk “sammenhæng”, der betyder ” den første billedtekst, eller, for Wikihow, der er spørgsmålet. Det påvirker ikke Bert ydeevne meget, de finder. Bert og ELMo og resten, med andre ord, er ikke virkelig bruger den første del, de er bare clueing i stilistiske aspekter af den anden del.

“De eksisterende dybe metoder, som ofte bliver narret af en leksikalsk falske venner,” skriver de.

Papiret afsluttes med en form for opfordring til at gribe til våben for et våbenkapløb, et system af “udvikler sig benchmarks,” der vil holde smide mere sofistikeret forkerte svar på sproglige modeller til at holde snubler op på deres evne til spillet opgave ved blot at finde overfladiske mønstre.

Hvad der mangler, selv om, er en menneskelig evne til at “abstrakt væk fra sprog” og i stedet “model af verden,” skriver forfatterne.

For nu, så, endda i en kontrolleret setting, nej, en maskine kan ikke rigtig færdig med din sætning.

Kunstig Intelligens

Xilinx forædler AI chips strategi: Det er ikke bare det neurale netværk

Intels Mobileye chef klages tweaking af AI, foredrag op MaaS, bevæger sig ud over LIDAR

SoftBank Gruppe søger at ride AI enhjørninger i fremtiden

Uber vs. Lyft: Hvordan rivaler tilgang cloud, AI, og machine learning

AI i Sundhedsvæsenet: at Redde liv på befolkningen skala (CNET)

AI vil fjerne 1 af 8 arbejdspladser i Asien ved at 2024 (TechRepublic)

Relaterede Emner:

Udvikler

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software