Hoe MIT probeert op te lossen AI bias
Tonya Hall gesprekken met Dr. Aleksander Madry, associate professor of computer science aan het MIT, over wat wordt gedaan aan het oplossen van de afwijking en de fout in computer vision-algoritmen.
Hoe ver gaat de wereld naar het detecteren van valse, door de computer gegenereerde schrijven? Wel een beetje verder, als recent onderzoek van MIT wetenschappers juist is. Valse detectie vraagt veel vertrouwen van de kunstmatige intelligentie op statistische patronen, patronen die zelf kunnen worden vervalst.
Op donderdag, MIT artificial intelligence wetenschapper Tal Schuster en collega ‘ s uit Israël Tel Aviv University en de Cornell University posted a blog post over twee recente onderzoeksrapporten ze gepubliceerd over “nep-nieuws” en hoe zien. (Facebook AI onderzoeksteam had een hand in de ondersteuning van het werk.)
De uitkomst van het onderzoek is dat het kiezen van een computer gegenereerde tekst is niet genoeg: Een neuraal netwerk zal ook het scheiden van de geldig, waarheidsgetrouwe tekst, misschien wel gemaakt door een mens, maar misschien ook die worden gemaakt door een machine, van de tekst die is kwaadaardig en misleidend.

Het raadsel van vals nieuws detectie, zeggen de MIT-onderzoekers, is dat geldig, feitelijk correct schrijven kan komen uit automatisch, de computer gegenereerde tekst, en valse informatie kan afkomstig zijn van menselijke handen, dus men moet dieper gaan dan alleen het opsporen van wat spullen die wordt gegenereerd door een machine en wat is gegenereerd door een persoon.
MIT CSAIL
Het fundamentele probleem is dat de AI, wanneer gebruikt om ter plaatse een nep, vaak is gebaseerd op statistische aanwijzingen in de tekst, van de aanwijzingen, dat kan misleidend zijn. In de eerste paper van de twee, Schuster en collega ‘ s pick-up waar de wetenschappers van het Allen Institute van Machine learning gebleven, eerder dit jaar. U zult zich herinneren dat het Allen Institute wetenschappers in Mei introduceerde een neuraal netwerk met de naam “Grover” die kunnen worden gebruikt om te ontdekken tekst die automatisch werd gegenereerd door vergelijkbare netwerken, zoals de “GPT2” taal netwerk van OpenAI. In andere woorden, een neuraal net werd gebruikt om de vangst van een ander.
De sleutel tot Grover was dat GPT2 en de taal van de modellen als het, zoals Google ‘ s “Bert,” een soort van spoor of de handtekening in hoe ze construeren tekst. Zij halen combinaties van woorden die meer alledaagse, minder inventief dan menselijke schrijvers. Door het opsporen van die handtekening Grover was in staat om te vertellen als er een stukje tekst is gemaakt door een machine. Die aanpak voor het opsporen van valse nieuws is gekomen om te worden aangeduid als de “herkomst” – benadering, wat betekent dat het vertelt nep van echt door te kijken waar de generatie van woorden vandaan komt, mens of machine.
Grover is goed, het MIT team erkend, maar het probleem is dat niet alle computer gegenereerde tekst is nep in de zin van het zijn misleidend. Meer en meer, machines konden schrijven geldige tekst, om de steun van uitgevers. De programma ‘ s die helpen bij het automatiseren van nieuwsartikel productie voor legitieme nieuws-bronnen kunnen worden gebruikt om make-up misleidende artikelen als een kwaadwillende partij kreeg van de code. Hoe vertel je het goede van de slechte?
Ook: Om de Vangst van een Nep: Machine learning snuift haar eigen machine-geschreven propaganda
Dat is niet gemakkelijk. Schuster en collega ‘ s van CNN nieuws, artikelen, geschreven door mensen, en hebben Grover voltooien van het oorspronkelijke artikel met een roman, computer gegenereerde zin waar of onwaar is. Een tweede netwerk had om te vertellen welke zinnen waar waren, die vals zijn. Soms ging het goed, maar alleen als het was voor het eerst blootgesteld aan de opleiding voorbeelden van de valse en ware zinnen. Op die manier kon zien dat de patronen van taalgebruik dat het neurale netwerk dat wordt gebruikt in de bouw ware versus valse verklaringen. Wanneer het niet gegeven deze specifieke voorbeelden tijdens de training, de juistheid van de detector ondergedompeld.
In een tweede, subtielere test, als de mens geschreven tekst is subtiel gewijzigd, bijvoorbeeld door het hebben van Grover plaats negatie woorden, zoals “niet” de detector is mislukt bij het uitzoeken van waar en onwaar, betekenis, de nauwkeurigheid was niet beter dan een willekeurige gissen.
De conclusie dat Schuster en collega ‘ s te bereiken is dat zonder zeer specifieke voorbeelden van het werk van, neurale netwerken zoals Grover zijn hopeloos. Gezien het feit dat ze suggereren dat de neurale net moet iets meer, het moet nemen om wat kennis op dat onthult de “waarachtigheid” van de tekst.
“Wij raden de uitbreiding van onze datasets en het maken van een benchmark die staat voor inhoud is de waarheid in een breed scala van mens-machine-samenwerkende toepassingen, van hele artikel generatie hybride schrijven en redigeren,” schrijven ze.
“Dit geeft een definitie van vals nieuws met waarachtigheid plaats van herkomst.”
In de tweede studie, de auteurs vinden een soortgelijk probleem met een populaire dataset voor nep-nieuws detectie, genaamd “KOORTS”, welke staat voor “een Feit Extractie en Controle.” KOORTS werd vorig jaar geïntroduceerd door de Universiteit van Cambridge en Amazon onderzoekers en is bedoeld als een bron op te leiden neurale netwerken te detecteren nep artikelen en andere nep-teksten, zoals productbeschrijvingen. De menselijke annotators poriën over Wikipedia-artikel extract zinnen en ondersteuning voor tekst en vorm een collectie van 185,445 ‘claims’, verklaringen van een feit dat kan waar of onwaar zijn, zoals “Barbara Bush was een echtgenoot van een AMERIKAANSE president tijdens zijn termijn’ (trouw, zij was de vrouw van de eerste President Bush, H. W.)
KOORTS is verondersteld om te vertellen hoe goed een neuraal net aan het uitzoeken als een bewering waar is gebaseerd op de daarmee samenhangende zinnen. Maar Schuster en zijn collega ‘ s dat patronen van woorden in de claim was een tip-off tot het neurale netwerk, zodat het kan goed raden zelfs zonder raadpleging van het bewijs. Bijvoorbeeld, als zinnen bevatte de woorden “niet” of “nog niet” of andere gelijkaardige woorden en woordparen, ze waren meer dan waarschijnlijk niet om claims die zouden worden weerlegd door de bewijsmiddelen. Op deze manier is het neurale net was echt niet leren iets over waarheid en onwaarheid, het was gewoon het bijhouden van statistieken van woordparen.
Ook: Hoge energie: Facebook AI guru LeCun denkt AI ‘ s next frontier
Inderdaad, wanneer de auteurs geherformuleerd de zinnen in KOORTS, ze kunnen leiden tot de neurale netto prestaties te duiken. “Het is niet verwonderlijk dat de prestaties van de KOORTS-opgeleide modellen aanzienlijk dalen op deze test, ondanks het feit dat volledige woordenschat over-lap met de oorspronkelijke dataset,” schrijven ze.
De moraal van het experiment, schrijven ze, is dat de toekomst, neurale netwerken voor valse detectie getraind moeten worden op een set gegevens die wordt ontdaan van dergelijke vooroordelen. Ze bieden zo een dataset, een versie van KOORTS, waarbij de afzonderlijke zinnen zijn opnieuw gewogen, zodat de giveaway zinnen minder impact. De auteurs drukken de hoop dat een dergelijke meer evenwichtige dataset zal leiden tot natuurlijke taal-modellen “het uitvoeren van de redenering met betrekking tot het bewijs.”
Samen genomen, de twee rapporten zijn een herinnering dat prestatiestatistieken voor neurale netten op de tests kunnen misleidend zijn. Inzicht in wat waar is en wat onwaar is in zinnen verschijnt een moeilijker taak voor een computer dan oorspronkelijk werd verondersteld.
Veel meer werk nodig is om te bewegen AI buiten de patroonherkenning en de richting van iets dat kan opstaan om algoritmen in verkeerde handen vallen.
Kunstmatige Intelligentie
Wells Fargo: Kunstmatige intelligentie en machine learning een ‘tweesnijdend zwaard’
Nee, dit AI nog niet onder de knie achtste leerjaar wetenschap
Wat is AI? Alles wat u moet weten over Kunstmatige Intelligentie
Nieuwe AI banen groter is dan het aantal verloren banen (ZDNet YouTube)
Elon Musk zegt AI zal banen irrelevant (CNET)
Het toevoegen van kunstmatige intelligentie om uw 2020 HET budget (TechRepublic)
Verwante Onderwerpen:
Big Data Analytics
Digitale Transformatie
CXO
Het Internet van Dingen
Innovatie
Enterprise Software