Nej, detta är AI inte kan avsluta din mening

0
17

Googles DeepMind arbetar för att förbättra AI
ZDNet är Tiernan Ray berättar Karen Roby om vad Google: s DeepMind gör för att förbättra AI och hur människor kan spela en större roll i att avgöra framgång från misslyckande än vad man ursprungligen trott. Läs mer: https://zd.net/2VYP0oj

Hype kring artificiell intelligens har blivit så vilseledande att deflatera det har blivit en undertext av en del forskning på området.

Ta, till exempel, svagt svidande rapport lägga ut denna vecka av Allen Institute for Artificial Intelligence och Paul Allen Skolan för datavetenskap vid University of Washington. Forskare Rowan Zellers och kollegor följa upp arbetet i höstas som visade att de kunde bidra med några av de bästa behandling av naturligt språk neurala nätverk med en grupp dumma engelska fraser.

I det nya arbetet, de dyker upp trycket att visa state-of-the-art språk modeller kan fortfarande inte anledning korrekt om vad meningen bör följa en annan.

De tar också en känga åt de fattiga journalistisk bevakning av disciplin. Zellers och kollegor tänk på att en artikel i New York Times från November trumpetade att Googles “Bert” naturligt språk neurala nätverk kunde slå sina ursprungliga utmaning. “Äntligen, en Maskin Som Kan Avsluta Din Mening,” sprang rubriken för att Times bit.

Jo, tydligen inte. I denna nya rapport, Zellers laget visar att genom att komma upp med meningen kompletteringar som mer och mer absurt, de kan lura även dålig Bert i fel svar.

allen-institute-hellaswag-test-illustration-may-2019.png

Ett naturligt språk slutledning uppgift att Googles Bert och andra språk modeller konsekvent misslyckas på: plocka den andra meningen som logiskt följer på den första, eller att svara rätt på en fråga från Wikihow.

Allen Institute for Artificial Intelligence

“Human performance är över 95%” i tester på att slutföra meningar, de rapporterar”, medan övergripande modell prestanda är under 50% för varje modell,” inklusive Googles Bert.

“Den underliggande aktivitet förblir olösta,” skriver de, enligt uppgift att förstå naturligt språk slutledning, förmågan att sluta sig en sak från en annan på det sätt människor gör.

Författarna skriver att deras arbete visar Bert och saker som man inte lär sig något “robust sunt resonemang.” Vad de faktiskt gör är att behärska en viss uppsättning data, något som de kallar “rapid yta elever” — plocka upp ledtrådar som stilistiska drag.

I själva verket, Zellers och företag att gå längre, att teoretisera en mycket tuff väg för att lära sig ett sådant resonemang. I betänkandet föreslås att om en alltmer spärrhandtag upp svårigheten med sådana datamängder till stubbe varje ny generation av språket modell som Google eller någon annan kan föreslå, ett slags kapprustning skulle kunna uppstå. Det potentiella resultatet är att det kan tänkas ta för 100.000 år av graphics processing unit, eller GPU, för att nå “mänskliga” noggrannhet på proven.

Dessutom: Varför är AI rapportering så dåligt?

“Att extrapolera från en exponentiell passar tyder på att nå de mänskliga prestanda på våra dataset skulle kräva 109 GPU timmar, eller 100k år-om algoritmisk förbättringar,” skriver de.

Även titeln på det nya arbetet, publicerat på arXiv pre-print server, innebär viss otålighet med den hype som: “HellaSwag: Kan en Maskin Verkligen Avsluta Din Mening” — observera kursiveringen!

HellaSwag är den nya versionen av deras “Swag” test från och med augusti. Swag står för “Situationer Med Kontradiktoriska Generationer.” Det är en uppsättning av meningen avslutad uppgifter som är utformad för att vara svårt för bästa behandling av naturligt språk teknik, såsom Bert.

I den ursprungliga papper, författarna tog videor från Webben och fick människa “skara arbetare” att skriva två bildtexter, en för en första och en andra bild av video, bilder som följde efter varandra.

Utmaningen med språket modeller som Bert var att välja vilken av flera alternativa förslag för den andra övergången var mest logiska som en fortsättning på den första, i form av en flervalsfråga.

För att göra det svårt, Zellers & Co. fyllda mänskliga caption bland tre suppleanter som genereras av ett neuralt nätverk.

allen-institute-hellaswag-example-may-2019.png

Ett exempel på att svara på en fråga som datorn på ett tillförlitligt sätt fumlar. Författarna utgår från Bert är att plocka upp ord om teknik när den väljer fel svar, svar d, i rosa, jämfört med det rätta svaret, svara c.

Allen Institute for Artificial Intelligence.

Till exempel, om den första bildtexten lyder: “damen visar inslagning av presenter med hennes fötter,” och följs av ett substantiv, “The lady”, en rätt andra bildtext, skriven av människor, skulle vara “klipper papper med en sax.” En missvisande beskrivning, som genereras av datorn, skulle vara, “tar desserter från rutan och fortsätter att prata med kameran.”

Zellers och företag att välja de bästa vilseledande svar genom att hitta de som är mest real-skenbar, en process som de kallar “kontradiktoriska filtrering.” Med hjälp av en grupp av neurala nätverk, de håller skapa bildtexter tills de neurala nätverk kan inte längre säga skillnaden mellan vad som är en människa-en skriftlig beskrivning och vad som är datorgenererade.

Med en uppsättning av meningar i hand, de utmanas Bert och andra modeller att välja den meningen att det är den mest logiska andra bildtext, de mänskliga-som genereras.

Också: OpenAI har en fånig text bot, och jag har fortfarande en skrivande jobb

De i huvudsak genereras text med ett neuralt nätverk för att lura ett neuralt nätverk.

Som de uttryckte det, “kastar i den mest kända generator (GPT) och mest känd som diskriminerar (BERT – Large), gjorde vi ett dataset som är kontradiktoriska — inte bara för att BERT, men att alla modeller som vi har tillgång till.”

Det är en slags poetisk skönhet i strategi, om du någonsin sett meningslöst nonsens som genereras av ett naturligt språk modell som OpenAI “GPT.” (De i själva verket används GPT i HellaSwag att generera missvisande meningar.)

I den nya tidningen, HellaSwag — den nya prefix står för “Hårdare Ändelser, Längre Sammanhang och Lågt Skott Aktiviteter” — Zellers och kollegor läggas till det ursprungliga testet genom att plocka ut meningen-svara exempel från Wikihow, den webbplats som svarar på vanliga frågor.

Måste läsa

Vad är AI? Allt du behöver för att vetavad är djupt lärande? Allt du behöver för att vetavad är lärande? Allt du behöver för att vetavad är cloud computing? Allt du behöver veta

De tycker att Bert är mycket sämre på att plocka ut vilka meningar som är ett svar på Wikihow frågor. Med tanke på en Wikihow uppgift, till exempel vad du ska göra om du kör bil och kommer till ett rött ljus, Bert och andra modeller plocka fel svar, som “stop under mer än två sekunder.” I själva verket, Bert plockar ut rätt svar endast 45% av tiden på ett sådant test.

Vad är det som händer i allt detta? Zellers och kollegor tror att den frustration som kommer av Bert på detta nya test visar bara hur ytlig en hel del att lära sig språk är.

Bert och modeller som “ELMo”, som utvecklats av Allen Institute, är “att plocka upp på dataset-särskilda fördelningspolitiska fördomar.”

Författarna testa hur dessa språk system gör när man skala bort “ramen”, vilket innebär att den första meningen eller, för Wikihow frågan. Det påverkar inte Bert prestanda mycket, tycker de. Bert och ELMo och resten, med andra ord, är inte riktigt med den första delen, de är bara clueing i att stilistiska aspekter av den andra delen.

“Befintligt djup metoder ofta luras av lexikala falska vänner”, skriver de.

Uppsatsen avslutas med ett slags upprop för en kapprustning, ett system av “utvecklas riktmärken,” som kommer att hålla kasta mer sofistikerade fel svar på språk som modeller för att hålla snubbla upp sin förmåga att spelet uppgiften genom att helt enkelt hitta ytliga mönster.

Vad som saknas är dock en mänsklig förmåga att “abstrakt bort från språket” och istället “modell världen stater,” skriver författarna.

För nu, då, även i en kontrollerad miljö, ingen, en maskin kan inte riktigt avsluta din mening.

Artificiell Intelligens

Xilinx förädlar AI chips strategi: Det är inte bara det neurala nätverket

Intels Mobileye chief beklagas tweaking av AI, berättar upp MaaS, som går bortom LIDAR

SoftBank-Gruppen vill rida AI enhörningar i framtiden

Über vs Lyft: Hur rivaler strategi moln, AI, och maskininlärning

AI i Hälso-och Rädda liv till befolkningen skala (CNET)

AI kommer att eliminera 1 av 8 arbetstillfällen i Asien genom 2024 (TechRepublic)

Relaterade Ämnen:

Utvecklare

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem