Hur MIT försöker lösa AI bias
Tonya Hall samtal med Dr. Aleksander Madry, docent i datavetenskap vid MIT, om vad som görs för att lösa fördomar och fel i datorseende algoritmer.
Hur långt har världen att gå för att upptäcka falska, dator-genererade skriva? Ganska lite längre, om ny forskning av MIT-forskare är korrekt. Falska metoden kräver en hel del av beroendet av artificiell intelligens på statistiska mönster, mönster som i sig kan vara falsk.
På torsdag, MIT artificial intelligence vetenskapsman Tal Schuster och kollegor från Israel, Tel Aviv University och Cornell University skrivit en blogg post om två aktuella forskningsrapporter publicerade de om “falska nyheter” och hur upptäcker du det. (Facebook är AI-forskning laget hade ett finger med i för att stödja arbetet.)
Resultatet av forskningen är att plocka ut en maskin skapad text räcker inte Ett neuralt nätverk måste också skilja på vad som är giltiga, sanningsenlig text, kanske skapad av en människa, men kanske också de som skapas av en maskin, från text som är skadliga och vilseledande.

Gåtan av falska nyheter upptäckt, säger MIT-forskarna, är att giltigt, korrekt skriver kan komma från automatiskt, maskingenererade text, och falsk information kan komma från människors händer, så man måste gå djupare än att bara upptäcka vad saker är som genereras av en maskin och vad som genereras av en person.
MIT CSAIL
Det grundläggande problemet är att AI, när det används för att upptäcka en falsk, bygger ofta på statistiska ledtrådar i texten, ledtrådar som kan vara vilseledande. I den första artikeln av två, Schuster och kollegor plocka upp där forskare vid Allen Institute of Machine learning slutade tidigare i år. Du minns att Allen Institute forskare i Maj infördes ett neuralt nätverk som kallas “Grover” som kan användas för att avslöja text som genereras automatiskt av liknande nätverk, såsom “GPT2” språk nätverk av OpenAI. Med andra ord, en neurala nätet använts för att fånga en annan.
Nyckeln till Grover var att GPT2 och språk modeller som det, till exempel Googles “Bert,” lämna en typ av spår eller signatur i hur de konstruerar text. Väljer de kombinationer av ord som är mer vardagliga, mindre uppfinningsrika, än mänskliga författare. Genom att upptäcka denna signatur Grover kunde berätta att när en bit av texten gjordes av en maskin. Som metod för att upptäcka falska nyheter har kommit att refereras till som “ursprung” – metoden, vilket innebär att den talar om falska från de äkta genom att titta på där den generation av ord kommer från, människa eller maskin.
Grover är bra, MIT-teamet erkänt, men problemet är att inte alla maskin-genererade texten är falsk i den meningen att den är vilseledande. Fler och fler maskiner skulle kunna skriva giltig text, till stöd förlag. Samma program som hjälper till att automatisera nyheter artikel produktion för legitima nyhets källor kan användas för att göra upp vilseledande artiklar om en skadlig partiet fick tag på koden. Hur kan man då göra som du säger bra från de dåliga?
Också: Att Fånga en Falsk: maskininlärning nosar reda på sin egen maskin-skriftlig propaganda
Det är inte lätt. Schuster och kollegor ta CNN nyheter artiklar, skrivna av människor, och har Grover slutföra det ursprungliga artikel med en roman, maskingenererade meningen, antingen sant eller falskt. En andra nätverk hade att berätta vilka meningar som var sant, som är falskt. Ibland gjorde det okej, men bara om de först utsätts för utbildning exempel på det falska och sanna meningar. På det sättet kan det se mönster i språkbruket som det neurala nätverk som används i byggandet sant kontra falskt påstående. När det inte var med tanke på dessa specifika exempel under utbildning, noggrannhet detektorn störtade.
I en andra, mer subtil, testa om den mänskliga skrivna texten var subtilt ändras, säga, genom att ha Grover sätt negation ord som “inte”, detektorn misslyckats med att reda ut sant och falskt, mening, sin noggrannhet var inte bättre än att gissa.
Den slutsats som Schuster och kollegor reach är att utan mycket specifika exempel att arbeta från, neurala nät som Grover är hopplös. Med tanke på att de föreslår att det neurala nätet behöver något mer, det behöver för att införliva kunskap som avslöjar “sanningen” i texten.
“Vi rekommenderar att utöka vårt dataset och skapa en måttstock som representerar innehållet är sanningshalten i ett brett utbud av människa-maskin samarbetar ansökningar från hela artikel generation till hybrid skriva och redigera,” skriver de.
“Detta speglar en definition av falska nyheter som innehåller sanningshalten snarare än ursprung.”
I den andra papper, författarna hitta en liknande typ av problem med en populär dataset för falska nyheter upptäckt, som kallas “FEBER”, vilket står för “Faktum Utvinning och Kontroll.” FEBER infördes förra året av Cambridge University och Amazon forskare och är tänkt som en resurs som att träna neurala nät för att upptäcka falska varor och andra falska texter som produktbeskrivningar. Mänskliga annotators öste över Wikipedia-artikel för att extrahera meningar och stödjande text för att bilda en samling av 185,445 “påståenden,” uttalanden av fakta som kan vara antingen sant eller falskt, såsom “Barbara Bush var en make av en amerikansk president under hans tid” (det är sant, hon var hustru till den första President Bush, H. W.)
FEBER är tänkt att berätta hur bra ett neuralt nät är på att räkna ut om ett påstående är sant baserat på relaterade meningar. Men Schuster och hans kollegor fann att mönster av ord i anspråk var en tip-off till det neurala nätverket så att det kunde gissa rätt utan att ens ha hört bevis. Till exempel, om meningar som innehöll orden “inte” eller “ännu inte” eller andra liknande ord-par, de var mer sannolikt än inte att vara påståenden som skulle kunna motbevisas av bevis. På detta sätt, det neurala nätet var egentligen inte lära sig något om sanning och falskhet, det var bara att hålla reda på statistik av ord-par.
Också: Hög energi: Facebook AI guru LeCun föreställer AI: s nästa gräns
Ja, när författarna omformulerade meningar i FEBER, de kan orsaka neurala nätet prestanda till ett dopp. “Föga förvånande, utförandet av FEBER-utbildade modeller sjunka avsevärt om detta test som, trots att de har fullständig ordförråd över-knä med den ursprungliga datasetet,” skriver de.
Den moraliska av experiment, skriver de, är att gå framåt, neurala nät för falska upptäckt behovet av att ha tränat på en uppsättning data som är renad av sådana fördomar. De erbjuder en så dataset, en version av FEVER där de enskilda meningarna är re-viktade så att giveaway fraser utföra mindre inverkan. Författarna uttrycker en förhoppning om att en sådan mer balanserad dataset kommer att leda till naturligt språk modeller “som utför resonemang med respekt till bevis.”
Tillsammans, två rapporter är en påminnelse om att resultatstatistik för neurala nät på tester som kan vara vilseledande. Att förstå vad som är sant och vad är falskt i meningar visas en svårare uppgift för en dator än vad det kan ha ursprungligen varit tänkt.
En hel del mer arbete kommer att behövas för att flytta AI bortom igenkännande av mönster och mot något som kan stå upp för algoritmer i skadliga händer.
Artificiell Intelligens
Wells Fargo: Artificiell intelligens och maskininlärning ett “tveeggat svärd”
Nej, detta AI har inte behärskar åttonde klass vetenskap
Vad är AI? Allt du behöver veta om Artificiell Intelligens
Nya AI jobb kommer att överträffa förlorade jobb (ZDNet YouTube)
Elon Musk säger AI kommer att göra jobb irrelevant (CNET)
Hur man lägger till artificiell intelligens för att din 2020 IT-budget (TechRepublic)
Relaterade Ämnen:
Big Data Analytics
Digital Omvandling
CXO
Sakernas Internet
Innovation
Affärssystem