
Tiernan Ray til ZDNet
En masse nuancer af skrivning er tabt på internettet-ting, såsom ironi.
Det er derfor, satiriske publikationer som skrivning af Andy Borowitz på hjemmesiden for The New Yorker magazine har for at blive stemplet som satire, for at gøre sikker på, vi ved.
Forskere i de seneste år er blevet berørt: Hvad med at skrive, der ikke er korrekt forstået, sådan som satire fejl for sandheden, eller, omvendt, bevidst misinformation kampagner, der er forklædt som uskyldig satire?
Og så begyndte en søgen, at guddommelig nogle form af machine learning-teknologi, der automatisk kunne identificere satire som sådan, og at skelne det fra bevidste løgne.
I sandhed, en maskine kan ikke forstå meget af noget, virkelig, og det kan bestemt ikke forstå, satire. Men det kan også være i stand til at kvantificere aspekter af satiriske skrift, som kan hjælpe til at håndtere den strøm af falske nyheder på Internettet.
Sag i punkt: Et papir præsenteret i denne uge på den 2019 Konference om Empiriske Metoder i Naturligt Sprog Forarbejdning, i Hong Kong, forfattet af forskere fra tech startup AdVerifai, George Washington University i Washington, DC, og Amazons AWS cloud division.
Også: Nej, dette AI ikke har styr ottende klasse videnskab
Papiret, at Identificere Nuancerne i Fake News vs. Satire: ved Hjælp af Semantiske og Sproglige Referencer, bygger på mange års arbejde modellering forskelle mellem misvisende, ukorrekte nyheder, artikler, på den ene side, og satire på den anden side. (Der er også en slide dæk forberedt til EMNLP.)
De presserende spørgsmål, som er hovedforfatter Eller Levi, af AdVerifai, og hans kolleger, skrive, er, at det kan være vanskeligt i praksis at fortælle satire fra falske nyheder. Det betyder, legitime satire kan få forbudt, mens vildledende oplysninger, der kan få ufortjent opmærksomhed, fordi det er forklædt som satire.
“For brugere, forkert klassificering af satire som falske nyheder kan fratage dem fra ønskeligt underholdning indhold, samtidig med at identificere en falsk nyhed som legitime satire kan udsætte dem for misinformation,” er, hvordan Levi og kolleger, beskriver den situation.
Tanken om al denne forskning er, at selv om en person bør vide, satire givet et minimum af fornuft og aktuel viden, samfundet har brug for, for mere præcist at formulere og måle aspekter af satiriske at skrive i en maskine, der kan læses af mode.
Tidligere forsøg på at skelne mellem satire fra virkelig vildledende nyheder har ansat nogle enkle machine learning metoder, som ved hjælp af en “bag om ordene” tilgang, hvor en “support vektor maskine,” eller SVM, klassificerer en tekst-baseret på helt grundlæggende aspekter af det at skrive.
Også: Nej, dette AI kan ikke afslutte din sætning
For eksempel viste en undersøgelse i 2016 af forskere ved University of Western Ontario, citeret af Levi og kolleger, havde til formål at producere, hvad de kaldte en “automatisk satire detection system.” Denne tilgang kiggede på ting som, om det sidste punktum i en artikel, der indeholdt henvisninger til personer, steder, og steder — hvad er kendt som “opkaldt enheder” — som er i strid med de enheder, der er nævnt i resten af artiklen. Den fornemmelse var, at det pludselige, overraskende referencer kunne være et mål for “absurditet”, ifølge forfatterne, som kunne være en anelse om, at satiriske bid hensigt.
Denne form for tilgang, med andre ord, indebærer blot at tælle forekomster af ord, og er baseret på ekspert-lingvister’ teorier om, hvad der gør op satire.
I tilgang af Levi og kolleger, machine learning bevæger sig en lille smule over, at menneskelige funktion engineering. De anvender Googles meget populære “BERT” naturligt sprog forarbejdning værktøj, med en dyb læring netværk, der har opnået imponerende benchmarks for en bred vifte af sprog, forståelse tests i de seneste år.
De tog en “pre-uddannet” version af BERT, og så “fin-tunet” det ved at køre det gennem et andet træningspas, der er baseret på en særlig korpus, der består af offentliggjorte artikler i både satire og falske nyheder. Datasættet blev bygget sidste år af forskere ved University of Maryland og omfatter 283 falske nyheder, artikler og 203 satiriske artikler fra januar 2016 til oktober 2017 om det emne i amerikansk politik. De artikler, der var kurateret af mennesker og mærket som enten falske eller satirisk. Løg var en kilde af satiriske tekster, men de indgår der også andre kilder, således at systemet ikke ville simpelthen være picking up cues i stil med kilde.
Levi og kolleger fandt, at BERT har et temmelig godt stykke arbejde for præcist at klassificere artikler som satire eller falske nyheder i test — bedre i virkeligheden, end den simple SVM tilgang, af den art der anvendes i tidligere forskning.
Også: Hvorfor er AI rapportering så slemt?
Problemet er, hvordan det virker, der er mystisk. “Mens pre-uddannet model af BERT giver det bedste resultat, det er ikke nemt tolkes,” skriver de. Der er en form for semantisk mønster opdagelse foregår inde i BERT, de går, men de kan ikke sige, hvad det er.
At beskæftige sig med det, forfatterne også kørte en anden analyse, hvor de har klassificeret de to former for skrivning, der er baseret på et sæt af regler, sat sammen for et årti siden af psykolog Danielle McNamara og kolleger, så ved University of Memphis, kaldet “Coh-Metrix.” Værktøjet er beregnet til at vurdere, hvor let eller svær en tekst er for et menneske at forstå, givet niveauet af “samhørighed” og “sammenhæng” i teksten. Det er baseret på indsigt fra inden for datamatisk lingvistik.
Relaterede Emner:
Big Data Analytics
Digital Transformation
CXO
Tingenes Internet
Innovation
Virksomhedens Software