Metas 'data2vec' er et skridt mod One Neural Network to Rule Them All

0
202

Tiernan Ray Skrevet af Tiernan Ray, bidragende skribent Tiernan Ray Tiernan Rays bidragydende skribent

Tiernan Ray har dækket teknologi og forretning i 27 år.

Fuld biografi i januar 20, 2022 | Emne: Kunstig intelligens

Kapløbet er i gang med at skabe ét neuralt netværk, der kan behandle flere slags data – en mere generel kunstig intelligens, der ikke diskriminerer om typer af data, men i stedet kan knuse dem alle inden for den samme grundlæggende struktur.

Genren af ​​multimodalitet, som disse neurale netværk kaldes, er at se en byge af aktivitet, hvor forskellige data, såsom billede, tekst og talelyd, sendes gennem den samme algoritme for at producere en score på forskellige tests som f.eks. billedgenkendelse, naturlig sprogforståelse eller talegenkendelse.

Og disse ambidextrøse netværk høster resultater på benchmark-test af AI. Den seneste præstation er det, der kaldes “data2vec”, udviklet af forskere ved AI-afdelingen af ​​Meta (forælder til Facebook, Instagram og WhatsApp).

Pointen, som Meta-forsker Alexei Baevski, Wei-Ning Hsu , Qiantong Xu, Arun Babu, Jiatao Gu og Michael Auli afslører i et blogindlæg, er at nærme sig noget mere som den generelle indlæringsevne, som det menneskelige sind synes at omfatte.

“Mens folk ser ud til at lære på en lignende måde, uanset hvordan de får information – uanset om de bruger syn eller lyd, for eksempel – er der i øjeblikket store forskelle i den måde, selvovervågede læringsalgoritmer lærer af billeder, tale, tekst, og andre modaliteter,” hedder det i blogindlægget.

Hovedpointen er, at “AI skal kunne lære at udføre mange forskellige opgaver, inklusive dem, der er helt ukendte.”

Metas administrerende direktør, Mark Zuckerberg, gav et citat om arbejdet og dets bånd til et fremtidigt Metaverse:

Folk oplever verden gennem en kombination af syn, lyd og ord, og systemer som dette kunne en dag forstå verden, som vi gør. Alt dette vil i sidste ende blive indbygget i AR-briller med en AI-assistent, så det for eksempel kan hjælpe dig med at lave aftensmad, lægge mærke til, om du savner en ingrediens, få dig til at skrue ned for varmen eller mere komplekse opgaver.

Navnet data2vec er et spil med navnet på et program til sprogindlejring, udviklet hos Google i 2013 kaldet “word2vec.” Det program forudsagde, hvordan ord klynger sig sammen, og så er word2vec repræsentativt for et neuralt netværk designet til en bestemt type data, i så fald tekst.

Også: Åbn pod-båsen, tak, HAL: Metas AI simulerer læbeaflæsning

I tilfældet med data2vec tager Baevski og kolleger imidlertid en standardversion af det, der kaldes en Transformer, udviklet af Ashish Vaswani og kolleger hos Google i 2017, og udvider den til at blive brugt til flere datatyper.

Transformers neurale netværk blev oprindeligt udviklet til sprogopgaver, men det er blevet bredt tilpasset i årene siden til mange slags data. Baevski et al. viser, at transformatoren kan bruges til at behandle flere slags data uden at blive ændret, og det trænede neurale netværk, som resultaterne kan udføre på flere forskellige opgaver.

I det formelle papir, “data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language,” træner Baevski et al. Transformeren til billeddata, talelydbølgeformer og tekstsprogrepræsentationer.

Den meget generelle Transformer bliver til det, der kaldes en fortræning, der så kan anvendes på specifikke neurale netværk for at udføre specifikke opgaver. For eksempel bruger forfatterne data2vec som fortræning til at udstyre det, der kaldes “ViT”, “vision Transformer”, et neuralt netværk specielt designet til synsopgaver, som blev introduceret sidste år af Alexey Dosovitskiy og kolleger hos Google.

meta-2022-data2vec-vitscores-on -test.jpg

Meta viser topscore for den ærværdige ImageNet-billedgenkendelse konkurrence.

Meta 2022

Når de bruges på ViT til at forsøge at løse standard ImageNet-testen af ​​billedgenkendelse, kommer deres resultater i toppen af ​​pakken med en nøjagtighed på 84,1 %. Det er bedre end scoren på 83,2 % modtaget af et team hos Microsoft, der fortrænede ViT med Hangbo Bao sidste år.

Og den samme data2vec Transformer udsender resultater, der er state-of-the-art til talegenkendelse, og som er konkurrencedygtige, hvis ikke de bedste, til naturlig sprogindlæring:

Eksperimentelle resultater viser, at data2vec er effektiv i alle tre modaliteter, sætter en ny state of the art for ViT-B og ViT-L på ImageNet-1K, forbedrer i forhold til det bedste tidligere arbejde inden for talebehandling på talegenkendelse og yder på niveau med RoBERTa på GLUE naturlig sprogforståelse benchmark.

Kernen er, at dette sker uden nogen ændring af det neurale netværk til at handle om billeder, og det samme for tale og tekst. I stedet går hver inputtype ind i det samme netværk og udfører den samme meget generelle opgave. Denne opgave er den samme opgave, som Transformer-netværk altid bruger, kendt som “masked prediction.”

Også: Googles supermodel: DeepMind Perceiver er et skridt på vejen mod en kunstig intelligens-maskine, der kunne behandle alt

Den måde, data2vec udfører maskeret forudsigelse på, er imidlertid en tilgang kendt som “selvovervåget” læring. I en selvovervåget indstilling trænes eller udvikles et neuralt netværk ved at skulle gennemgå flere stadier.

For det første konstruerer netværket en repræsentation af den fælles sandsynlighed for datainput, det være sig billeder eller tale eller tekst. Derefter har en anden version af netværket nogle af disse inputdataelementer “maskeret ud”, efterladt uafsløret. Det skal rekonstruere den fælles sandsynlighed, som den første version af netværket havde konstrueret, hvilket tvinger det til at skabe stadig bedre repræsentationer af dataene ved i det væsentlige at udfylde de tomme felter.

En oversigt over data2vec tilgang.

Meta 2022

De to netværk, det med det fulde mønster af den fælles sandsynlighed, og det med den ufuldstændige version, som det forsøger at fuldføre, kaldes fornuftigt nok “Lærer” og “Student”. Elevnetværket forsøger at udvikle sin sans for data, om man vil, ved at rekonstruere, hvad Læreren allerede har opnået.

Du kan se koden for modellerne på Github.

Hvordan klarer det neurale netværk Lærer og Elev for tre meget forskellige typer data? Nøglen er, at “målet” for fælles sandsynlighed i alle tre datatilfælde ikke er en specifik outputdatatype, som det er tilfældet i versioner af Transformeren for en specifik datatype, såsom Googles BERT eller OpenAIs GPT-3.

Data2vec griber snarere en masse neurale netværkslag, der er inde i det neurale netværk, et sted i midten, som repræsenterer dataene, før de produceres som et endeligt output.

Som forskerne skriver, “En af de vigtigste forskelle ved vores metode […] bortset fra at udføre maskeret forudsigelse, er brugen af ​​mål, der er baseret på gennemsnit af flere lag fra lærernetværket.” Specifikt, “vi regresserer flere neurale netværkslagsrepræsentationer i stedet for kun det øverste lag,” så “data2vec forudsiger de latente repræsentationer af inputdataene.”

De tilføjer: “Vi bruger generelt outputtet fra FFN [feed-forward-netværket] før den sidste resterende forbindelse i hver blok som mål,” hvor en “blok” er Transformer-ækvivalenten til et neuralt netværkslag.

Pointen er, at hver datatype, der går ind, bliver den samme udfordring for Elev-netværket med at rekonstruere noget inde i det neurale netværk, som Læreren havde sammensat.

Dette gennemsnit er forskelligt fra andre nyere tilgange til at opbygge ét netværk til at knuse alle data. For eksempel tilbød Googles DeepMind-enhed sidste sommer, hvad den kalder “Perceiver”, sin egen multimodale version af Transformer. Træningen af ​​Perceivers neurale netværk er den mere standardiserede proces med at producere et output, der er svaret på en mærket, overvåget opgave som f.eks. ImageNet. I den selvovervågede tilgang bruger data2vec ikke disse etiketter; det er bare at prøve at rekonstruere netværkets interne repræsentation af dataene.

Endnu mere ambitiøse indsatser ligger i kulissen. Jeff Dean, leder af Googles AI-indsats, drillede i oktober om “Pathways” og kaldte det en “næste generations AI-arkitektur” til multimodal databehandling.

Husk at data2vecs meget generelle tilgang til et enkelt neuralt net for flere modaliteter stadig har en masse information om de forskellige datatyper. Billede, tale og tekst er alle forberedt ved forbehandling af dataene. På den måde er det multimodale aspekt af netværket stadig afhængig af spor om dataene, hvad holdet refererer til som “små modalitetsspecifikke inputkodere.”

Også: Google afslører 'Pathways', en næste generations AI, der kan trænes til at multitaske

Vi er ikke alligevel i en verden, hvor et neuralt net er trænet uden nogen som helst forstand på inputdatatyperne. Vi er heller ikke på et tidspunkt, hvor det neurale netværk kan konstruere én repræsentation, der kombinerer alle de forskellige datatyper, så det neurale netværk lærer ting i kombination.

Det fremgår tydeligt af en udveksling mellem ZDNet og forskerne. ZDNet nåede ud til Baevski og teamet og spurgte: “Er de latente repræsentationer, der tjener som mål en kombineret kodning af alle tre modaliteter på et givet tidspunkt, eller er de normalt kun en af ​​modaliteterne?”

Baevski og team svarede, at det er sidstnævnte tilfælde, og deres svar er interessant nok til at citere langt:

De latente variabler er ikke en kombineret kodning for de tre modaliteter. Vi træner separate modeller for hver modalitet, men processen, hvorigennem modellerne lærer, er identisk. Dette er den vigtigste nyskabelse i vores projekt, da der før var store forskelle i, hvordan modeller trænes i forskellige modaliteter. Neurovidenskabsmænd mener også, at mennesker lærer på lignende måder om lyde og den visuelle verden. Vores projekt viser, at selvovervåget læring også kan fungere på samme måde for forskellige modaliteter.

I betragtning af data2vecs modalitetsspecifikke begrænsninger forbliver et neuralt netværk, der virkelig kan være One Network To Rule Them All, fremtidens teknologi.

Fremhævede

FBI: Svindlere bruger falske QR-koder til at stjæle dine adgangskoder og penge. De bedste tv-tilbud, der er tilgængelige lige nu: Januar 2022 Microsoft: Denne nye browserfunktion er kæmpe skridt frem' mod nul-dagstrusler COVID-test: Sådan får du gratis hurtige testsæt derhjemme Netværk | Digital transformation | CXO | Internet of Things | Innovation | Enterprise Software