Kommer AI någonsin ‘förstå’ satir?

0
179
robot-laughs-2.jpg

Tiernan Ray för ZDNet

En hel del nyanser av skrivande är förlorade på internet — saker som ironi.

Det är därför satiriska publikationer som skrivandet av Andy Borowitz på webbplatsen för The New Yorker magazine har att märkas som satir, för att se till att vi vet.

Forskare på senare år har blivit fråga: Vad om att skriva som inte riktigt förstått, som misstar satir för sanning, eller, omvänt, avsiktlig desinformation kampanjer som är maskerade som oskyldig satir?

Och så började en strävan, att gudomlig någon form av lärande teknik för att automatiskt identifiera satir som sådan, och att skilja det från avsiktliga lögner.

I sanning, en maskin kan inte förstå mycket av vad som helst, verkligen, och det kan verkligen inte förstå satir. Men det kan vara att kunna kvantifiera alla aspekter av satiriska skrift, som kan hjälpa till att ta itu med den flod av falska nyheter på Internet.

Typexempel: Ett papper som presenterades i veckan vid 2019 Konferens på Empiriska Metoder i Behandling av Naturligt Språk, i Hong Kong, författad av forskare från tech startup AdVerifai, George Washington University i Washington, DC, och i Amazon AWS molnet division.

Även: Nej, detta AI har inte behärskar åttonde klass vetenskap

Papper, Identifiera Nyanser i Falska Nyheter vs. Satir: med Hjälp av Semantiska och Språkliga Ledtrådar, bygger på år av arbete modellering skillnader mellan vilseledande, oriktiga nyhetsartiklar, å ena sidan, och satir på andra sidan. (Det finns också en bild däck förberedd för EMNLP.)

De problem, som huvudförfattare Eller Levi, av AdVerifai, och hans kollegor, skriva om, är att det kan vara svårt i praktiken att berätta satir från falska nyheter. Det innebär legitima satir kan få förbjudas vilseledande information kan få oförtjänt uppmärksamhet eftersom det utger sig för att vara satir.

“För användare, felaktigt klassificera satir som falska nyheter kan beröva dem från önskvärt underhållning, medan identifiera en falsk nyhet som legitima satir kan utsätta dem för desinformation,” är hur Levi och kollegor beskriva situationen.

Tanken på all denna forskning är att även om en person bör veta satir ges en smula förnuft och aktuell kunskap, samhälle kan behöva mer precist formulera och mäta aspekter av satiriska skrift på ett maskinläsbart sätt.

Tidigare försök att skilja satir från verkligt vilseledande nyheter har anställt några enkla maskinen strategier för lärande, till exempel med hjälp av en “väska av orden” – metoden, där en “support vector machine” eller SVM, klassificerar ett text-baserat på en mycket grundläggande aspekter av skrivandet.

Även: Nej, detta är AI inte kan avsluta din mening

Till exempel, en studie i 2016 av forskare vid University of Western Ontario, citerad av Levi och kollegor, som syftar till att producera vad de kallade en “automatisk satir detection system.” Detta synsätt tittade på saker som om den sista meningen i en artikel som finns referenser till personer, platser och platser-vad som är känt som “namngivna entiteter” – det är i strid med de enheter som anges i resten av artikeln. Magkänsla var att det plötsliga, överraskande referenser skulle kunna vara ett mått på “absurditet”, enligt författarna, vilket kan vara en ledtråd till satirisk uppsåt.

Denna typ av strategi, med andra ord, innebär helt enkelt att räkna förekomster av ord, och bygger på språkexperter’ teorier om vad som gör satir.

I den strategi för Levi och kollegor, maskininlärning flyttar en liten bit bortom det mänskliga funktionen engineering. De använder Google är väldigt populära “BERT” natural language processing verktyg, en djup lärande nätverk som har uppnått imponerande riktmärken för en mängd olika språk förståelse tester under de senaste åren.

De tog en “pre-utbildade” version av BERT, och då är de “fine-tuned” det genom att köra den genom annan träning som bygger på en särskild korpus består av publicerade artiklar i både satir och falska nyheter. Dataset byggdes förra året av forskare vid University of Maryland och omfattar 283 falska nyhetsartiklar och 203 satiriska artiklar från januari 2016 till och med oktober 2017 på temat AMERIKANSKA politiken. Artiklarna var omskötta av människor, och som är märkta som antingen falska eller satirisk. Löken var en källa till satiriska texter, men de ingår med andra källor för att systemet inte skulle helt enkelt vara att plocka upp ledtrådar i stil med källan.

Levi och hans kollegor fann att BERT gör ett ganska bra jobb med att korrekt klassificera artiklar som satir eller falska nyheter i testet som — bättre, faktiskt, än den enkla SVM strategi av det slag som används i tidigare forskning.

Dessutom: Varför är AI rapportering så dåligt?

Problemet är, hur den gör det som är mystisk. “Medan pre-utbildade modell för BERT ger det bästa resultatet, det är inte lätt tolkningsbara,” skriver de. Det är någon typ av semantisk pattern detection som händer på insidan BERT, de hypotes, men de kan inte säga vad det är.

För att hantera detta, författarna också körde en annan analys, där de klassificeras de två typer av skriva baserat på en uppsättning av regler för att sätta ihop ett decennium sedan av psykolog Danielle McNamara och kollegor, sedan vid University of Memphis, heter “Coh-Metrix.” Verktyget är tänkt att bedöma hur lätt eller svårt en given text är för en människa att förstå med tanke på den nivå av “sammanhållning” och “konsekvens” i texten. Det är baserat på insikter från området för datorlingvistik.

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem