Hoved falsk: MIT arbejde, viser falske nyheder detection er ikke helt der endnu

0
138

Hvordan MIT forsøger at løse AI bias
Tonya Hall taler med Dr. Aleksander Madry, lektor i datalogi på MIT, om hvad der bliver gjort for at løse bias og fejl i computer vision algoritmer.

Hvor langt er verden nødt til at gå for at afsløre falske, computer-genereret skriver? En hel del længere, hvis den seneste forskning ved MIT forskere er korrekte. Falsk påvisning kræver en masse af afhængighed af kunstig intelligens på statistiske mønstre, mønstre, der i sig selv kan være forfalsket.

På torsdag, MIT kunstig intelligens videnskabsmand Tal Schuster og kolleger fra Israel ‘ s Tel Aviv University og Cornell University skrevet en blog post om to nyere forskning rapporter, som de blev offentliggjort i forbindelse med “falske nyheder”, og hvordan til at spotte det. (Facebook ‘ s AI forskning team var med til at støtte arbejdet.)

Resultatet af forskningen er, at plukke ud af en maskine-genererede teksten er ikke nok: En neurale netværk bliver nødt til også at adskille, hvad der er gyldigt, sandfærdig tekst, måske skabt af et menneske, men måske også dem, der er skabt af en maskine, fra tekst, der er ondsindet og vildledende.

mit-fake-news-conundrum-2019.png

Gåden om falske nyheder opdagelse, sige MIT forskere, er, at gyldige, faktuelt korrekt skriver, kan komme fra automatisk, maskin-genereret tekst, og falske oplysninger kan komme fra menneskets hænder, så man er nødt til at gå dybere end blot at opdage, hvad ting er genereret af en maskine, og hvad der er genereret af en person.

MIT CSAIL

Det grundlæggende problem er, at AI, når de bruges til at spotte en falsk, ofte er baseret på statistiske spor i teksten, spor, der kan være vildledende. I den første artikel af to, Schuster og kolleger samle op, hvor forskere på Allen Institute for Machine learning venstre ud tidligere i år. Du vil huske, at Allen Institute forskere i Maj introduceret et neuralt netværk kaldet “Grover”, der kan bruges til at afdække tekst, der automatisk blev genereret af lignende netværk, såsom “GPT2” sprog netværk af OpenAI. Med andre ord, en neurale net blev brugt til at fange en anden.

Nøglen til Grover var, at GPT2 og sprog modeller kan lide det, som Google ‘ s “Bert,” efterlad en slags spor eller underskrift i, hvordan de konstruerer teksten. De samle kombinationer af ord, der er mere almindelige, mindre opfindsom, end den menneskelige forfattere. Ved at afsløre, at underskriften Grover var i stand til at fortælle, når en del af teksten var lavet af en maskine. Denne tilgang til at opdage falske nyheder er kommet for at blive henvist til som “herkomst” – tilgang, hvilket betyder, at det fortæller falske fra det virkelige ved at se på, hvor den generation af ord kommer fra, menneske eller maskine.

Grover er god, MIT team anerkendt, men problemet er, at ikke alle maskin-genereret tekst er falsk i den forstand, for at være vildledende. Mere og mere, maskiner kunne skrive gyldig tekst, for at støtte udgivere. De samme programmer, der hjælper med at automatisere nyheder artikel produktion for legitime nyheder kilder, der kunne bruges til at gøre op vildledende artikler, hvis en ondsindet part fik fat i koden. Hvordan, derefter, kan du fortælle de gode fra de dårlige?

Også: At Fange en Falsk: Machine learning snuser sin egen maskine-skrevet propaganda

Det er ikke nemt. Schuster og kolleger tage CNN news artikler, skrevet af mennesker, og har Grover fuldføre den oprindelige artikel med en roman, maskin-genereret sætning, enten sandt eller falsk. Et andet netværk var nødt til at fortælle, hvilke sætninger der er sande, hvilke er falske. Nogle gange gjorde det okay, men kun hvis det blev første gang udsat for uddannelse eksempler på de falske og sande sætninger. På den måde kunne det se mønstre i sprogbrug, at de neurale netværk, der bruges i byggeriet ægte versus falske udsagn. Når det ikke var givet dem konkrete eksempler under uddannelse, nøjagtigheden af detektoren kastet.

I et andet, mere nuanceret test, hvis den menneskelige skrevet tekst blev subtilt ændret, siger, ved at have Grover indsætte negation ord, som “ikke,” detektor undladt at sortere sandt og falsk, hvilket betyder, dets nøjagtighed var ikke bedre end tilfældig gætte.

Den konklusion, at Schuster og kolleger nå, er, at uden en meget konkrete eksempler til at arbejde fra, neurale net-Grover er håbløs. I betragtning af, at de foreslår, at det neurale net er behov for noget mere, er det nødvendigt at indarbejde en vis viden, der afslører “rigtigheden” af teksten.

“Vi anbefaler, at udvide vores datasæt, og skabe en benchmark, der repræsenterer indholdets sandfærdighed i en bred vifte af menneske-maskine-collaborating applications, fra hele artikel generation til hybrid skrivning og redigering,” skriver de.

“Det afspejler en definition af falske nyheder, som omfatter sandfærdighed, snarere end herkomst.”

I det andet papir, forfatterne finde en lignende form for problem med en populær datasæt for falske nyheder opdagelse, kaldet “FEBER”, som står for “Virkeligheden Udvinding og Kontrol.” FEBER blev indført sidste år af Cambridge University og Amazon forskere, og er ment som en ressource, som tog neurale net til at opdage falske artikler og andre falske tekster såsom produktbeskrivelser. Menneskelige annotators læst over Wikipedia-artikel til at udtrække sætninger og understøtter teksten til at danne en samling af 185,445 “krav,” sætninger, der kan være enten sandt eller falsk, f.eks. “Barbara Bush var en ægtefælle til en amerikansk præsident under hans embedsperiode” (sand, hun var gift med den første Præsident Bush, H. W.)

FEBER er meningen at fortælle, hvor godt et neuralt net er ved at finde ud af, om en påstand er sand, baseret på det relaterede sætninger. Men Schuster og kolleger fandt, at mønstre af ord i den fordring, der var et tip-off til den neurale netværk, så det kunne gætte korrekt, uden selv høring af beviser. For eksempel, hvis sætninger, der er indeholdt ordene “ikke” eller “endnu ikke” eller andre lignende ord-par, at de var mere tilbøjelige end ikke at være krav, der ville blive tilbagevist af beviser. På denne måde, det neurale net var ikke rigtig lære noget om sandhed og falskhed, det var bare at holde styr på statistikker af ord-par.

Også: Høj energi: Facebook ‘s AI guru LeCun forestiller sig, AI’ s næste grænse

Faktisk, når forfatterne omformuleret sætninger i FEBER, de kan forårsage, at den neurale net ‘ s ydeevne til at fordybe sig. “Ikke overraskende, udførelsen af FEBER-uddannet modeller falde betydeligt på denne test, der, på trods af at have fuldstændig ordforråd over-lap med det oprindelige datasæt,” skriver de.

Den moralske af eksperimentet, de skriver, er det at gå fremad, neurale net til falsk påvisning nødt til at være uddannet på et data sæt, der er renset for en sådan bias. De tilbyder sådan et datasæt, en version af FEBER, hvor den enkelte sætninger er re-vægtet, så de giveaway sætninger foretage mindre betydning. Forfatterne udtrykke håb om, at sådan en mere balanceret datasæt vil føre til naturligt sprog-modeller “, der udfører den argumentation med hensyn til beviser.”

Tilsammen kan de to rapporter er endnu en påmindelse om, at effektiviteten for neurale net på prøver, som kan være vildledende. Forståelse af, hvad der er sandt og hvad er falsk i sætninger vises en sværere opgave for en computer, end det måske oprindeligt har været meningen.

En masse mere arbejde vil det være nødvendigt at bevæge sig ud over AI mønstergenkendelse og hen imod noget, der kan stå op til algoritmer i ondsindet hænder.

Kunstig Intelligens

Wells Fargo: Kunstig intelligens og maskinindlæring et “tveægget sværd’

Nej, dette AI ikke har styr ottende klasse videnskab

Hvad er AI? Alt, hvad du behøver at vide om Kunstig Intelligens

Nye AI job, vil flere arbejdspladser tabt (ZDNet YouTube)

Elon Musk siger AI vil gøre arbejdspladser irrelevant (CNET)

Hvordan at tilføje kunstig intelligens til din 2020 IT-budget (TechRepublic)

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software