Metas 'data2vec' är ett steg mot ett neuralt nätverk för att styra dem alla

0
180

Tiernan Ray Skrivet av Tiernan Ray, bidragande skribent Tiernan Ray Tiernan Rays bidragande skribent

Tiernan Ray har täckt teknik och affärer i 27 år.

Fullständig beskrivning i januari 20, 2022 | Ämne: Artificiell intelligens

Kapplöpet går ut på att skapa ett neuralt nätverk som kan bearbeta flera typer av data – en mer allmän artificiell intelligens som inte diskriminerar om typer av data utan istället kan krossa dem alla inom samma grundläggande struktur.

Genren av multimodalitet, som dessa neurala nätverk kallas, är att se en uppsjö av aktivitet där olika data, såsom bild, text och talljud, passeras genom samma algoritm för att producera poäng på olika tester som t.ex. bildigenkänning, naturlig språkförståelse eller talupptäckt.

Och dessa tvåsidiga nätverk samlar ihop poäng på benchmarktest av AI. Den senaste bedriften är vad som kallas “data2vec”, utvecklat av forskare vid AI-avdelningen av Meta (förälder till Facebook, Instagram och WhatsApp).

Poängen, som Metaforskaren Alexei Baevski, Wei-Ning Hsu , avslöjar Qiantong Xu, Arun Babu, Jiatao Gu och Michael Auli i ett blogginlägg, är att närma sig något som mer liknar den allmänna inlärningsförmåga som det mänskliga sinnet tycks omfatta.

“Medan människor verkar lära sig på ett liknande sätt oavsett hur de får information – oavsett om de använder syn eller ljud, till exempel – finns det för närvarande stora skillnader i hur självövervakade inlärningsalgoritmer lär sig av bilder, tal, text, och andra modaliteter”, står det i blogginlägget.

Huvudpoängen är att “AI ska kunna lära sig att utföra många olika uppgifter, inklusive de som är helt obekanta.”

Metas VD, Mark Zuckerberg, gav ett citat om arbetet och dess band till ett framtida Metaverse:

Människor upplever världen genom en kombination av syn, ljud och ord, och system som detta skulle kunna en dag förstå världen som vi gör. Allt detta kommer så småningom att byggas in i AR-glasögon med en AI-assistent så att det till exempel kan hjälpa dig att laga middag, märka om du missar en ingrediens, uppmana dig att sänka värmen eller mer komplexa uppgifter.

Namnet data2vec är en lek med namnet på ett program för språkinbäddning som utvecklades på Google 2013 kallat “word2vec.” Det programmet förutspådde hur ord klungar ihop sig, och så är word2vec representativt för ett neuralt nätverk designat för en specifik typ av data, i så fall text.

Även: Öppna dörrarna till podfacket, tack, HAL: Metas AI simulerar läppläsning

När det gäller data2vec, däremot, tar Baevski och kollegor en standardversion av vad som kallas en Transformer, utvecklad av Ashish Vaswani och kollegor på Google 2017, och utökar den till att användas för flera datatyper.

Transformers neurala nätverk utvecklades ursprungligen för språkuppgifter, men det har under åren sedan dess i stor utsträckning anpassats för många typer av data. Baevski et al. visa att transformatorn kan användas för att bearbeta flera typer av data utan att ändras, och det tränade neurala nätverket som resultatet kan utföra på flera olika uppgifter.

I det formella dokumentet, “data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language,” Baevski et al., tränar Transformatorn för bilddata, talljudvågformer och textspråksrepresentationer.

Den mycket allmänna Transformatorn blir vad som kallas en förträning som sedan kan appliceras på specifika neurala nätverk för att utföra specifika uppgifter. Till exempel använder författarna data2vec som förträning för att utrusta det som kallas “ViT”, “vision Transformer”, ett neuralt nätverk speciellt designat för synuppgifter som introducerades förra året av Alexey Dosovitskiy och kollegor på Google.

meta-2022-data2vec-vitscores-on -test.jpg

Meta visar toppbetyg för den ärevördiga ImageNet-bildigenkänningen konkurrens.

Meta 2022

När de används på ViT för att försöka lösa det vanliga ImageNet-testet för bildigenkänning, kommer deras resultat i toppen av paketet, med en noggrannhet på 84,1 %. Det är bättre än poängen på 83,2 % som fick ett team på Microsoft som förutbildade ViT under ledning av Hangbo Bao förra året.

Och samma data2vec Transformer ger resultat som är toppmoderna för taligenkänning och som är konkurrenskraftiga, om inte de bästa, för naturlig språkinlärning:

Experimentella resultat visar att data2vec är effektiv i alla tre modaliteterna, sätter ett nytt toppmodernt för ViT-B och ViT-L på ImageNet-1K, förbättrar jämfört med det bästa tidigare arbetet med talbearbetning med taligenkänning och presterar i nivå med RoBERTa på förståelsen av naturligt språk GLUE riktmärke.

Kruxet är att detta sker utan någon modifiering av det neurala nätverket för att handla om bilder, och samma sak för tal och text. Istället går varje ingångstyp in i samma nätverk och slutför samma mycket allmänna uppgift. Den uppgiften är samma uppgift som Transformer-nätverk alltid använder, känd som “maskerad förutsägelse”.

Även: Googles supermodell: DeepMind Perceiver är ett steg på vägen mot en AI-maskin som kan bearbeta vad som helst

Sättet som data2vec utför maskerad förutsägelse är dock ett tillvägagångssätt som kallas “självövervakad” inlärning. I en självövervakad miljö tränas eller utvecklas ett neuralt nätverk genom att behöva passera flera stadier.

Först konstruerar nätverket en representation av den gemensamma sannolikheten för datainmatning, vare sig det är bilder eller tal eller text. Sedan har en andra version av nätverket några av dessa indataobjekt “maskerade” lämnade oupptäckta. Den måste rekonstruera den gemensamma sannolikheten som den första versionen av nätverket hade konstruerat, vilket tvingar den att skapa allt bättre representationer av data genom att i huvudsak fylla i tomrummen.

En översikt över data2vec tillvägagångssätt.

Meta 2022

De två nätverken, det med hela mönstret av den gemensamma sannolikheten, och det med den ofullständiga versionen som det försöker slutföra, kallas förnuftigt nog “Lärare” och “Student”. Studentnätverket försöker utveckla sin känsla för datan, om man så vill, genom att rekonstruera vad läraren redan har uppnått.

Du kan se koden för modellerna på Github.

Hur fungerar det neurala nätverket Lärare och elev för tre mycket olika typer av data? Nyckeln är att “målet” för gemensam sannolikhet i alla tre datafallen inte är en specifik utdatatyp, vilket är fallet i versioner av Transformatorn för en specifik datatyp, såsom Googles BERT eller OpenAI:s GPT-3.

Snarare tar data2vec tag i ett gäng neurala nätverkslager som finns inuti det neurala nätverket, någonstans i mitten, som representerar data innan den produceras som en slutlig utdata.

Som forskarna skriver, “En av huvudskillnaderna med vår metod […] förutom att utföra maskerad förutsägelse, är användningen av mål som är baserade på ett genomsnitt av flera lager från lärarnätverket.” Specifikt, “vi regresserar flera representationer av neurala nätverkslager istället för bara det översta lagret,” så att “data2vec förutsäger de latenta representationerna av indata.”

De tillägger, “Vi använder i allmänhet utdata från FFN [feed-forward-nätverket] före den sista kvarvarande anslutningen i varje block som mål,” där ett “block” är transformatormotsvarigheten till ett neuralt nätverkslager.

Poängen är att varje datatyp som går in blir samma utmaning för Studentnätverket att rekonstruera något inuti det neurala nätverk som Läraren hade skapat.

Detta medelvärde skiljer sig från andra nya metoder för att bygga ett nätverk för att krossa all data. Till exempel, förra sommaren, erbjöd Googles DeepMind-enhet vad den kallar “Perceiver”, sin egen multimodala version av Transformer. Träningen av Perceivers neurala nätverk är den mer standardiserade processen att producera en utdata som är svaret på en märkt, övervakad uppgift som ImageNet. I det självövervakade tillvägagångssättet använder data2vec inte dessa etiketter; det är bara att försöka rekonstruera nätverkets interna representation av data.

Ännu mer ambitiösa insatser ligger i kulisserna. Jeff Dean, chef för Googles AI-satsningar, retade i oktober om “Pathways” och kallade det en “nästa generations AI-arkitektur” för multimodal databehandling.

Tänk på att data2vecs mycket allmänna tillvägagångssätt för ett enda neuralt nät för flera modaliteter har fortfarande mycket information om de olika datatyperna. Bild, tal och text förbereds genom förbearbetning av data. På det sättet förlitar sig den multimodala aspekten av nätverket fortfarande på ledtrådar om data, vad teamet refererar till som “små modalitetsspecifika indatakodare.”

Även: Google presenterar “Pathways”, en nästa generations AI som kan tränas för att multitaska

Vi är inte ändå i en värld där ett neuralt nät tränas utan någon som helst känsla för indatatyperna. Vi är inte heller vid en tidpunkt då det neurala nätverket kan konstruera en representation som kombinerar alla olika datatyper, så att det neurala nätet lär sig saker i kombination.

Det faktum framgår av ett utbyte mellan ZDNet och forskarna. ZDNet nådde ut till Baevski och teamet och frågade: “Är de latenta representationerna som fungerar som mål en kombinerad kodning av alla tre modaliteterna vid ett givet tidssteg, eller är de vanligtvis bara en av modaliteterna?”

Baevski och team svarade att det är det senare fallet, och deras svar är tillräckligt intressant för att citera långt:

De latenta variablerna är inte en kombinerad kodning för de tre modaliteterna. Vi tränar separata modeller för varje modalitet men processen genom vilken modellerna lär sig är identisk. Detta är den viktigaste innovationen i vårt projekt eftersom det tidigare fanns stora skillnader i hur modeller tränas i olika modaliteter. Neurovetenskapsmän tror också att människor lär sig på liknande sätt om ljud och den visuella världen. Vårt projekt visar att självledd inlärning också kan fungera på samma sätt för olika modaliteter.

Med tanke på data2vecs modalitetsspecifika begränsningar förblir ett neuralt nätverk som verkligen kan vara One Network To Rule Them All framtidens teknik.

Utvalda

FBI: Skurkar använder falska QR-koder för att stjäla dina lösenord och pengar. De bästa tv-erbjudandena tillgängliga just nu: januari 2022 Microsoft: Den här nya webbläsarfunktionen är enorm steg framåt mot nolldagarshot Covid-testning: Hur man får gratis snabbtestkit hemma Nätverk | Digital transformation | CXO | Internet of Things | Innovation | Företagsprogramvara