
Tiernan Ray voor ZDNet
Veel van de nuances van het schrijven van zijn verloren op de internet-dingen, zoals ironie.
Dat is de reden waarom satirische materiaal, zoals het schrijven van Andy Borowitz op de website van The New Yorker magazine is aangeduid als satire, om ervoor te zorgen dat we weten.
Wetenschappers in de afgelopen jaren zijn betrokken: Wat over te schrijven, dat is niet goed te begrijpen, zoals satire verward met de waarheid, of, omgekeerd, doelbewuste desinformatie campagnes die zijn vermomd als onschuldige satire?
En zo begon een zoektocht naar het goddelijke of andere vorm van machine learning technologie die automatisch identificeren satire als zodanig en het onderscheiden van opzettelijke leugens.
In waarheid, een machine kan niet begrijpen dat veel van alles, echt, en het is zeker niet kan begrijpen satire. Maar het kunnen kwantificeren aspecten van het satirische schrijven, die kunnen helpen om te gaan met de vloed van valse nieuws op het Internet.
Case in point: Een paper presenteerde deze week op de 2019 Conferentie van Empirische Methoden in de Verwerking van Natuurlijke Taal, in Hong Kong, geschreven door onderzoekers van de tech startup AdVerifai, De George Washington University in Washington, DC, en Amazon AWS cloud division.
Ook: Nee, dit AI nog niet onder de knie achtste leerjaar wetenschap
Het papier, het Identificeren van Nuances in Nep-Nieuws vs. Satire: met Behulp van Semantische en Linguïstische Signalen, bouwt voort op het werk van jaren modellering verschillen tussen misleidende, feitelijk onjuist nieuws artikelen, aan de ene kant, en de satire aan de andere kant. (Er is ook een slide deck voorbereid voor EMNLP.)
De indrukken van zorg, als lead author Of Levi, van AdVerifai, en zijn collega ‘ s, het schrijven, is dat het moeilijk kan zijn in de praktijk om te vertellen satire van vals nieuws. Dat betekent legitieme satire kan gebanned terwijl misleidende informatie kan krijgen onverdiende aandacht, omdat het zich voordoet als satire.
“Voor de gebruikers een onjuist classificeren van satire als nep nieuws kan beroven hen van wenselijk entertainment content, terwijl het identificeren van een nep-nieuws verhaal als legitiem satire kan leiden ze tot desinformatie,” is hoe Levi en collega ‘ s beschrijven de situatie.
Het idee van dit onderzoek is dat, hoewel een persoon moet weten satire gegeven een zekere mate van gevoel en actuele kennis, samenleving kan nodig zijn om meer precies te formuleren en meten van de aspecten van het schrijven van satirische in een machine-leesbare vorm.
Eerdere inspanningen te onderscheiden satire van echt misleidend nieuws zijn in dienst van enkele eenvoudige machine learning-aanpak, zoals het gebruik van een “zak van de woorden” benadering, waarbij een “support vector machine” of SVM, classificeert een tekst-gebaseerd op zeer fundamentele aspecten van het schrijven.
Ook: Nee, dit AI kan niet voltooien van uw zin
Bijvoorbeeld, een studie in 2016 is door onderzoekers van de Universiteit van West-Ontario, geciteerd door Levi en collega ‘ s, die gericht zijn om te produceren wat zij noemden een “automatische satire detectie systeem.” Die benadering is gekeken of de laatste zin van een artikel opgenomen verwijzingen naar personen, plaatsen en locaties, wat bekend staat als een “named entities” — die strijdig zijn met de entiteiten in de rest van het artikel. Het vermoeden was dat de plotselinge, verrassende verwijzingen kan een maatregel van de “absurditeit”, aldus de auteurs, kan dat een aanwijzing voor het satirische bedoeling.
Dat soort aanpak, in andere woorden, het gaat gewoon tellen exemplaren van woorden, en is gebaseerd op expert taalkundigen’ theorieën over wat maakt satire.
In de aanpak van Levi en collega ‘ s, machine learning beweegt een beetje boven dat soort menselijke eigenschap engineering. Ze maken gebruik van Google is zeer populair “BERT” natural language processing tool, een diep leren netwerk dat heeft bereikt indrukwekkende benchmarks voor een verscheidenheid van taal inzicht in tests in de afgelopen jaren.
Ze nam een “pre-opgeleid” versie van BERT, en dan zijn ze “fine-tuned” het door het uit te voeren via een andere training op basis van een speciale corpus bestaat uit gepubliceerde artikelen van zowel satire en nep-nieuws. De dataset is vorig jaar gebouwd is door onderzoekers van de Universiteit van Maryland en omvat 283 nep nieuws, de artikelen en 203 satirische artikelen van januari 2016 tot oktober 2017 op het onderwerp van de AMERIKAANSE politiek. De artikelen werden samengesteld door de mens en gelabeld als nep of satirisch. De Ui was een bron van satirische teksten, maar ook andere bronnen, zodat het systeem niet zou gewoon oppakken van signalen in de stijl van de bron.
Levi en zijn collega ‘ s dat BERT doet een vrij goed werk van nauwkeurig indelen van artikelen als satire of nep nieuws in de test set — beter, in feite, dan de eenvoudige SVM benadering van de soort gebruikt in het eerdere onderzoek.
Ook: Waarom is AI rapportage zo slecht?
Probleem is, hoe het dat doet is het mysterieuze. “Terwijl de pre-opgeleid model van BERT geeft het beste resultaat, het is niet gemakkelijk interpretable,” schrijven ze. Er is een soort van semantische pattern detection er aan de binnenkant BERT, ze veronderstellen, maar zij kunnen niet zeggen wat het is.
Om te gaan met dat, de auteurs liep ook een andere analyse, waar ze ingedeeld op de twee soorten van het schrijven op basis van een set van regels samen een decennium geleden door de psycholoog Danielle McNamara en collega ‘ s, daarna aan de Universiteit van Memphis, genaamd “Coh-Metrix.” De tool is bedoeld om te beoordelen hoe makkelijk of hoe moeilijk een tekst is voor een mens om te begrijpen gezien het niveau van de “samenhang” en “samenhang” in de tekst. Het is gebaseerd op inzichten uit het gebied van de computationele taalkunde.
Verwante Onderwerpen:
Big Data Analytics
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software