Nee, dit AI kan niet voltooien van uw zin

0
25

Google DeepMind werkt aan de verbetering van AI
ZDNet is Tiernan Ray vertelt Karen Roby over wat Google ‘ s DeepMind doet aan het verbeteren van de AI en hoe mensen kunnen een grotere rol spelen in het bepalen van succes van een mislukking dan aanvankelijk gedacht. Lees meer: https://zd.net/2VYP0oj

De hype rond kunstmatige intelligentie heeft gekregen zo misleidend dat deflatie is het uitgegroeid tot een subtekst van onderzoek in het veld.

Neem, bijvoorbeeld, een subtiel vernietigend rapport zet deze week door het Allen Institute for Artificial Intelligence en de Paul Allen, de School of Computer Science van de Universiteit van Washington. Onderzoeker Rowan Zellers en collega ‘ s follow-up op het werk in de afgelopen herfst bleek dat ze konden stomp enkele van de beste natuurlijke taal verwerking van neurale netwerken met een groep van domme engelse zinnen.

In het nieuwe werken, ze voeren de druk op om te laten zien state-of-the-art modellen taal nog steeds niet reden juist over wat zin moet volgen nog.

Zij nemen ook een veeg op de slechte journalistieke dekking van de discipline. Zellers en collega ‘s er rekening mee dat een New York Times artikel van November trompetterde dat Google’ s “Bert” natuurlijke taal neurale netwerk is in staat te winnen van hun oorspronkelijke uitdaging. “Eindelijk, een Machine Die Kan Afmaken Uw Zin,” liep de kop van dat Keer stuk.

Nou, blijkbaar niet. In dit nieuwe rapport, de Zellers team laten zien dat door te komen met zin aanvullingen die steeds belachelijk, ze kunnen verleiden zelfs de arme Bert in een verkeerd antwoord.

allen-institute-hellaswag-test-illustration-may-2019.png

Een natuurlijke taal gevolgtrekking taak die de Google-Bert en de andere taal modellen consequent niet op: het plukken van de tweede zin, die logisch volgt een eerste, of het correct beantwoorden van een vraag van Wikihow.

Allen Institute for Artificial Intelligence

“De menselijke prestatie is voor meer dan 95%” in tests op het afmaken van zinnen, melden ze, “terwijl de totale model prestaties lager is dan 50% voor elk model,” waaronder Google ‘ s Bert.

“De onderliggende taak nog steeds niet is opgelost,” schrijven ze, de betekenis, de taak van het begrijpen van natuurlijke taal inference, de mogelijkheid om te concluderen één ding uit een andere de manier waarop mensen dat doen.

De auteurs schrijven dat hun werk toont Bert en dergelijke dingen zijn niet het leren van een “robuuste kwestie van gezond verstand redeneren.” Wat ze eigenlijk doen is het beheersen van een bepaalde set gegevens, iets wat ze noemen “snelle oppervlak leerlingen” — in het oppikken van signalen, zoals stilistische kenmerken.

In feite, Zellers en bedrijf ga verder, theoretiseren een zeer moeilijke weg voor het leren van een dergelijke redenering. Het rapport stelt dat, als een steeds ratels de moeilijkheid van dergelijke datasets te stomp elke nieuwe generatie van taal model dat Google of iemand anders kan voorstellen, een soort van wapenwedloop zou kunnen voortvloeien. Het mogelijke gevolg is dat het denkbaar nemen 100.000 jaar van een graphics processing unit of GPU, te bereiken “menselijke” nauwkeurigheid te testen.

Ook: Waarom is AI rapportage zo slecht?

“Het extrapoleren van een exponentiële fit suggereert dat het bereiken van een menselijk niveau prestatie op onze dataset zou vereisen 109 GPU uur, of 100k jaren — tenzij algoritmische verbeteringen worden doorgevoerd,” schrijven ze.

Zelfs de titel van het nieuwe werken, geplaatst op het arXiv pre-print server, impliceert een zekere ongeduld met de hype: “HellaSwag: Kan een Machine Echt klaar bent met Uw Zin” — opmerking de cursief!

HellaSwag is de nieuwe versie van hun “Swag” test van augustus. Swag staat voor “Situaties Met hoor en wederhoor Generaties.” Het is een set van zin voltooiing van taken die is ontworpen om hard voor de beste natural language processing technologie, zoals Bert.

In dat originele papier, de auteurs namen video ‘ s van het Web en kreeg menselijke “menigte arbeiders” te schrijven twee titels, één voor een eerste en een tweede frame van de video, frames, die gevolgd is op een na de ander.

De uitdaging van taal-modellen, zoals Bert was om te kiezen welke van de verschillende alternatieve voorstellen voor de tweede bijschrift was het meest logische als een vervolg op de eerste, in de vorm van een multiple-choice vraag.

Om het moeilijk maken, Zellers & Co. gevuld met de menselijke bijschrift onder de drie alternatieven die zijn gegenereerd door een neuraal netwerk.

allen-institute-hellaswag-example-may-2019.png

Een voorbeeld van het beantwoorden van een vraag die de computer betrouwbaar legde het loodje. De auteurs postuleren Bert is in het oppikken van woorden over technologie wanneer het kiest het verkeerde antwoord, antwoord d, in roze, versus het juiste antwoord is antwoord c.

Allen Institute for Artificial Intelligence.

Bijvoorbeeld, als de eerste bijschrift luidt, “De dame toont het verpakken van cadeaus met behulp van haar voeten,” en wordt gevolgd door een zelfstandig naamwoord, “De vrouwe,” een juiste tweede bijschrift, geschreven door de mens zou worden “snijdt het papier met een schaar.” Een misleidende titel, gegenereerd door de computer zou worden, “vindt de desserts uit de doos en blijft het praten naar de camera.”

Zellers en bedrijf selecteer de beste misleidende antwoorden door het vinden van de meest real-ogenschijnlijk-een proces, dat noemen ze “hoor en wederhoor filteren.” Met een groep van neurale netwerken, ze houden het genereren van bijschriften tot die neurale netwerken kan niet meer het verschil zien tussen wat een mens geschreven bijschrift en wat is computer gegenereerd.

Met een set van zinnen in de hand, ze uitgedaagd Bert en de andere modellen om te kiezen voor de zin, dat is de meest logische tweede bijschrift, de menselijke gegenereerd.

Ook: OpenAI heeft een idiote tekst bot, en ik heb nog een baan te schrijven

Ze wezen gegenereerde tekst met een neuraal netwerk te gek zijn van een neuraal netwerk.

Zoals ze het uitdrukte, “het gooien in de bekendste generator (GPT) en de meest bekende discriminator (BERT – Groot), maakten we een dataset die tegenspraak niet alleen met BERT, maar alle modellen hebben wij toegang tot hebben.”

Er is een soort van poëtische schoonheid in de aanpak, als je ooit hebt gezien de idiote onzin gegenereerd door een natuurlijke taal-model, zoals OpenAI “GPT.” (In feite gebruikt GPT in HellaSwag voor het genereren van de misleidende zinnen.)

In het nieuwe papier, HellaSwag — de nieuwe prefix staat voor “Harder Eindes, Meer Context en Low-Shot Activiteiten” — Zellers en collega ‘ s zijn toegevoegd aan de oorspronkelijke test door het uitzoeken van de zin-antwoord voorbeelden van Wikihow, de website die antwoorden op veel voorkomende vragen.

Moet lezen

Wat is AI? Alles wat je nodig hebt om knowWhat is diep leren? Alles wat je nodig hebt om knowWhat is van ‘machine learning’? Alles wat je nodig hebt om knowWhat is cloud computing? Alles wat je moet weten

Ze vinden dat Bert is veel erger bij het uitzoeken van welke zinnen zijn een antwoord op Wikihow vragen. Gegeven een Wikihow taak, zoals wat te doen als je aan het rijden bent en komen aan een rood licht, Bert en de andere modellen pick verkeerde antwoorden, zoals “stoppen voor niet meer dan twee seconden.” In feite, Bert haalt het juiste antwoord slechts 45% van de tijd aan een dergelijke test.

Wat er aan de hand in dit alles? Zellers en collega ‘ s denken dat de frustratie van Bert op deze nieuwe test toont hoe oppervlakkig veel van het leren van een taal is.

Bert en modellen zoals “ELMo”, ontwikkeld door het Allen Institute, zijn “in het oppikken van de dataset-specifieke verschillen in de vooroordelen.”

De auteurs testen hoe deze taal systemen doen als ze ontdoen de “context”, wat betekent dat de eerste bijschrift, of, voor Wikihow, is de vraag. Het heeft geen invloed op Bert prestaties veel, vinden ze. Bert en ELMo en de rest, met andere woorden, niet echt gebruik van het eerste deel, ze zijn gewoon clueing in te stilistische aspecten van het tweede deel.

“Bestaande diepe methoden vaak voor de gek gehouden door lexicale valse vrienden,” schrijven ze.

De paper eindigt met een soort oproep om de wapens voor een wapenwedloop, een systeem van “veranderende benchmarks,” dat zal blijven gooien meer geavanceerde verkeerde antwoorden in een taal modellen houden struikelen in hun vermogen om het spel van de taak door gewoon het vinden van oppervlakkige patronen.

Wat ontbreekt is echter een menselijke vermogen om “abstracte afstand van taal” en in plaats van “model van de wereld staten,” de auteurs schrijven.

Voor nu, dan, zelfs in een gecontroleerde setting, nee, een machine niet echt afwerking van uw zin.

Kunstmatige Intelligentie

Xilinx verfijnt AI chips strategie: Het is niet alleen het neurale netwerk

Intel ‘ s Mobileye chief bemoans tweaken van AI, spreekt tot de MaaS, die verder gaat dan LIDAR

SoftBank Group op zoek te rijden AI eenhoorns in de toekomst

Uber vs. Lyft: Hoe de rivalen aanpak cloud, AI, en machine learning

AI in de Gezondheidszorg: het redden van levens bij de bevolking schaal (CNET)

AI zal elimineren 1 van de 8 banen in Azië door 2024 (TechRepublic)

Verwante Onderwerpen:

Ontwikkelaar

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software