ITALIANO

Sarà mai AI “capire” la satira?

168

Un sacco di sfumature della scrittura sono perso su internet, cose come ironia.

Ecco perché satirico pubblicazioni come la scrittura di Andy Borowitz sul sito della rivista The New Yorker essere etichettati come satira, per assicurarsi che sappiamo.

Gli scienziati negli ultimi anni sono diventati interessati: scrivere che non è propriamente intesa come satira scambiato per la verità, o, viceversa, deliberata disinformazione campagne che sono mascherati e innocente satira?

E così ha iniziato una ricerca, di divino, di una qualche forma di macchina di apprendimento di una tecnologia in grado di identificare automaticamente la satira come tali e distinguersi dalle menzogne deliberate.

In verità, una macchina non si può capire molto di niente, davvero, e certo non può capire la satira. Ma si può essere in grado di quantificare gli aspetti della scrittura satirica, che potrebbe aiutare a trattare con il flusso di notizie false su Internet.

Caso in questione: Un documento presentato questa settimana al 2019 Conferenza su Metodi Empirici nell’Elaborazione del Linguaggio Naturale, a Hong Kong, creato dai ricercatori del tech startup AdVerifai, La George Washington University di Washington, DC, e Amazon AWS cloud divisione.

Anche: No, questo l’IA non sa ottavo grado della scienza

La carta, Individuando le Sfumature di Notizie false contro la Satira: Utilizza Semantica e Linguistica Spunti, si basa su anni di lavoro di modellazione differenze tra fuorviante, di fatto inesatte notizie, articoli, da un lato, e la satira sull’altra mano. (C’è anche una slide preparate per EMNLP.)

La preoccupazione, come primo autore O Levi, di AdVerifai, e i suoi colleghi, scrivere, è che può essere difficile, in pratica, a dire la satira da false notizie. Questo significa che legittima la satira può ottenere proibiti, mentre informazioni fuorvianti può ottenere immeritata attenzione, perché si maschera come satira.

“Per gli utenti, in modo non corretto classificare satira come falsa notizia può privare loro di desiderabile contenuti di intrattenimento, mentre l’identificazione di una notizia falsa come legittimo satira può esporre loro di disinformazione” è come la Levi e colleghi descrivono la situazione.

L’idea di questa ricerca è che, anche se una persona deve sapere satira dato un briciolo di senso e attualità delle conoscenze, la società può avere bisogno, per poter meglio articolare e misurare gli aspetti della scrittura satirica in un formato leggibile moda.

Gli sforzi compiuti in passato per distinguere la satira veramente fuorvianti notizie hanno impiegato alcune semplici approcci di apprendimento automatico, come l’utilizzo di una “borsa di parole”, in cui una “macchina di vettore di sostegno” o SVM, classifica un testo basato su aspetti di base della scrittura.

Anche: No, questo l’AI non può finire la tua frase

Per esempio, uno studio nel 2016 da ricercatori della University of Western Ontario, citato da Levi e colleghi, l’obiettivo di produrre ciò che è chiamato un “automatico satira sistema di rilevamento.” Che approccio guardato le cose come se la frase finale di un articolo che contiene i riferimenti a persone, luoghi e posizioni — che cosa sono conosciuti come “entità con nome” — che sono in contrasto con le entità di cui nel resto dell’articolo. Il sospetto era che l’improvvisa, sorprendente riferimenti potrebbe essere una misura di “assurdità”, secondo gli autori, che potrebbe essere un indizio di un intento satirico.

Che tipo di approccio, in altre parole, consiste semplicemente nel conteggio delle occorrenze di parole, e si basa su di esperti linguisti’ teorie su ciò che fa satira.

Nell’approccio di Levi e colleghi, macchina di apprendimento si muove un po ‘ di là che di umano caratteristica di ingegneria. Essi impiegano Google è molto popolare “BERT” elaborazione del linguaggio naturale strumento, una profonda rete di apprendimento che ha raggiunto un livello impressionante di parametri di riferimento per una varietà di lingua, test di comprensione negli ultimi anni.

Hanno preso un “pre-formati” versione di BERT, e poi si sono “sintonizzati”, eseguendo attraverso un’altra sessione di allenamento, basato su un corpus costituito da articoli pubblicati sia di satira e di false notizie. Il set di dati è stato costruito l’anno scorso da alcuni ricercatori dell’Università del Maryland e comprende 283 false notizie e articoli 203 gli articoli satirici da gennaio 2016-ottobre 2017 sul tema della politica degli stati UNITI. Gli articoli sono stati a cura di esseri umani ed etichettato come falso o satirico. La Cipolla è stata una fonte di testi satirici, ma inclusi in altre fonti, in modo che il sistema non sarebbe semplicemente essere raccogliendo spunti nello stile della sorgente.

Levi e colleghi hanno trovato che BERT fa un buon lavoro di classificare con precisione di articoli di satira o di false notizie nel test set — meglio, infatti, che la semplice SVM approccio del tipo utilizzato nelle ricerche precedenti.

Inoltre: Perché AI segnalazione di così brutto?

Il problema è, come si fa che è misterioso. “Mentre il pre-formati di modello di BERT dà il miglior risultato, non è facilmente interpretabile,” scrivono. C’è un qualche tipo di semantica modello di rilevazione succedendo all’interno BERT, si ipotizza, ma non possono dire di cosa si tratta.

Per affrontare tutto ciò, gli autori hanno anche eseguito un’altra analisi, dove si sono classificati i due tipi di scrittura basata su un insieme di regole di mettere insieme una decina di anni fa dallo psicologo Danielle McNamara e colleghi, poi all’Università di Memphis, chiamato “Coh-Metrix.” Lo strumento serve per valutare quanto facile o difficile un testo dato, è per un essere umano a capire dato il livello di “coesione” e “coerenza” nel testo. È sulla base di conoscenze dal campo della linguistica computazionale.

Argomenti Correlati:

Big Data Analytics

La Trasformazione Digitale

CXO

Internet delle Cose

L’innovazione

Enterprise Software