Åbn pod bay-dørene, tak, HAL: Metas AI simulerer læbeaflæsning

0
120

Tiernan RaySkrevet af Tiernan Ray, bidragende forfatter Tiernan Ray Tiernan Ray Bidragende skribent

Tiernan Ray har dækket teknologi og forretning i 27 år.

Fuld biografi den 11. januar 2022 | Emne: Kunstig intelligens

– =bounds&auto=webp” class=”” height=”auto” width=”1200″ alt=”png-image-13.png” height=”0″ width=”0″ title=”Åbn pod-båsdørene, tak , HAL: Meta's AI simulerer læbeaflæsning” />

“Selvom du tog meget grundige forholdsregler i poden mod at jeg kunne høre dig, kunne jeg se dine læber bevæge sig.”

Det er en kendsgerning, der er almindeligt kendt, at folk hører tale ikke kun ved at lytte med deres ører, men også ved at opfange signaler fra de mundbevægelser, de observerer fra højttalernes side.

På samme måde kan en kombination af visuel observation med lyd hjælpe en computer til at forstå menneskelig tale bedre. Computerprogrammer kan på en måde læse læber, selvom det er en besværlig opgave at konstruere.

Seneste arbejde af Meta, forælderen til Facebook, Instagram og WhatsApp, foreslår en mere effektiv vej til en dag, hvor computere kan læse læber lige så godt, som HAL 9000 gjorde, da Dr. David Bowman og Dr. Frank Poole forsøgte at unddrage sig sine lydsensorer inde i poden i filmen “2001”.

Metas videnskabsmænd inden for kunstig intelligens offentliggjorde i fredags en forskningsrapport i, at de var i stand til dramatisk at reducere den indsats, der var nødvendig for at konstruere software til at analysere ordene fra højttaleres læbebevægelser i optagede videoer. Værket var også i stand til at bruge læbeaflæsningsteknologien til meningsfuldt at forbedre talegenkendelse i støjmiljøer.

Programmet er “75 procent mere nøjagtigt end de bedste audiovisuelle talegenkendelsessystemer (som bruger både lyd og billeder af højttaleren til at forstå, hvad personen siger),” siger forfatterne.

Selvfølgelig er der en Metaverse-vinkel her: Ikke alene kunne programmet bruges til øjeblikkelig oversættelse, en dag kan det også “hjælpe med at generere realistiske læbebevægelser i virtual reality-avatarer for at levere en ægte følelse af nærvær – den følelse af at være der med nogen, selvom de er på den anden side af verden.”

Værket repræsenterer et fremskridt ad to linjer. Den ene er selvovervåget læring, som undgår specifikke spor, såsom tekstudskrifter, og i stedet har programmet spontant guddommelig struktur i data. Det andet udviklingsområde er såkaldte multimodale neurale netværk, som kombinerer data af forskellig art på en måde, hvor de forstærker hinanden.

Resultatet, kaldet AV-HuBERT, “AV” står for audiovisuelt, og “Hu” står for “skjult enhed”, kombinerer auditive og visuelle signaler for at registrere ord fra læbebevægelser.

Hovedforfatteren Bowen Shi og kollegerne Wei-Ning Hsu, Kushal Lakhotia og Abdelrahman Mohamed fra Facebook udgav deres papir, “Learning Audio-Visual Speech Representation By Masked Multimodal Cluster Prediction,” på arXiv preprint-serveren siste fredag. Forfatterne skrev også et blogindlæg, som du måske finder lettere at fordøje.

Som Shi & Co. forklarer, tidligere arbejde har også været multimodalt, idet det kombinerer visuelle data, frames of video, med lyddata, bølgeformssnippets, for at træne et neuralt netværk til at forudsige, hvordan de matcher.

Men sådanne programmer har haft en tendens til at stole på en form for yderligere forberedte ledetråde, såsom en transskription af videoer af højttalere til tekstsætninger, der derefter tjener som etiketter. Det nye værk går den selvstyrede vej og sammensætter mønstre spontant uden ydre struktur.

“Det er det første system til i fællesskab at modellere tale og læbebevægelser fra umærkede data – rå video, der ikke allerede er blevet transskriberet,” skriver forfatterne i deres blogindlæg.

Mange tidligere modeller på ordniveau kommenterede læbelæsende videoer,” at træne, “hvilket er dyrt at indsamle, da de kræver information om ordgrænser. I modsætning til disse modeller er vores modeller færdiguddannet fra bunden ved hjælp af den foreslåede tilgang.

AV-HuBERT-programmet, de har opfundet, bygger på et program, der kun indeholder lyd, kaldet HuBERT. sidste år af Hsu og kolleger. Som navnet antyder, bruger HuBERT den tovejs-transformers neurale netværkstilgang, der blev udviklet hos Google i 2018. 

Ved at “maskere” dele af en lydoptagelse, dvs. udelade dele af en lydbølgeform, måtte HuBERTs neurale netværk i sin træningsfase rekonstruere, hvilke lydstykker der går med hinanden.

Nu, i AV-HuBERT, “fusionerer” Shi og team bits af lyd med rammer fra videoer af folk, der taler. Træningsfasen af ​​det neurale netværk forløber i det væsentlige i to faser. For det første bruger de, ligesom den originale HuBERT kun lyd, opmærksomhedstilgangen til at maskere lyden og grupperer derefter disse lydbølgeformer i klynger, som er grupper af eksempler, der på en eller anden måde er tæt på hinanden i deres egenskaber.

< p>Disse grupperinger bliver derefter et mål for den anden fase af det neurale netværk. Den multimodale del af AV-HuBERT maskerer samtidig både billederne af højttalernes læber og lydbølgeformen og forsøger derefter at matche dem med klyngerne etableret i den første bølge. På denne måde beregner programmet, hvilke læbekonfigurationer der svarer til hvilke lydbølgeformer, og derved “lærer” sammenhængen mellem mundbevægelse og lydoutput.

Det er i virkeligheden en selvovervåget tilgang, der giver guddommelig struktur uden eksplicitte ledetråde.

Strukturen af AV-HuBERT-program, der starter med, at visuelle data og lyddata indtastes i bunden og udsendes til de endelige “klynger” øverst.

Meta 2022

Fusionen betyder, at opmærksomheden på billedrammer og lydbølgeformer forstærker hinanden til at producere overlegne klynger, end begge ville alene. Disse klynger bliver “mål” for efterfølgende opgaver, såsom læbelæsning og talegenkendelse.

Som forfatterne forklarer, 

AV-HuBERT indfanger samtidig sproglig og fonetisk information for umaskerede områder fra både læbebevægelsen og lydstrømmene til dens latente repræsentationer og koder derefter deres lange – Range tidsmæssige forhold for at løse opgaven med maskeret forudsigelse.

Når AV-HuBERT er blevet selvtrænet på denne måde, laver forfatterne en finjustering ved at introducere faktisk mærket video, timevis af den, med formelle transskriptioner, der fortæller maskinen, hvor ordene er i videoen.

< p>Det vigtigste datasæt, der bruges til at teste og træne AV-HuBERT-programmet, er LRS3, udviklet i 2018 af Triantafyllos Afouras og kolleger i Oxford, som er “det hidtil største offentligt tilgængelige læbelæsningsdatasæt på sætningsniveau. Det består af over 400 timers video, uddraget fra TED & TEDx talks på engelsk fra YouTube.”

Som et resultat af den selvstyrede træning af AV-HuBERT kan den forudsige ordene fra højttalernes videoer bedre end alle tidligere forsøg, skriver Shi og selskab.

Testresultater på læbeaflæsning for det “foreslåede” Meta-system, AV-HuBERT, bund og tidligere klassens bedste programmer.

Meta 2022

Men vigtigere end den rå score er den store reduktion i mængden af ​​data, der skal til for at træne programmet.

“AV-HuBERT opnår state-of-the-art ved at bruge 433 timers teksttransskriptioner, to størrelsesordener mindre end de 31.000 timers mærkede data, der blev brugt i den tidligere bedste tilgang,” skriver de.

Med langt mindre behov for data er det muligt at lave mundlæsningsopgaver på sprog, der har meget mindre data end andre, såkaldte lavressourcesprog. (Tænk f.eks. på andre sprog end engelsk, fransk og tysk.)

Forfatterne bemærker, at “Som fremtidigt arbejde kan AV-HuBERT anvendes til flersproget mundaflæsning på sprog med lav ressource,” og at den samme “tilgang kan udvides til andre anvendelser af visuel talerepræsentation, såsom taleforbedring og -generering .”

Shi og kolleger føjede til deres resultater med et andet papir udgivet i sidste uge, der beskriver brugen af ​​AV-HuBERT til automatisk talegenkendelse. Her er fokus på, hvordan man gør bedre parsing af tale i sammenhæng med støj.

Talegenkendelse “udsat i mødescenarier er underlagt pludrelys, mens en, der bruges i et hjemmemiljø, naturligt møder musik, madlavning eller støvsuger maskinstøj.” Deres spørgsmål er, om sådan omgivende støj kan overvindes af AV-HuBERT.

Shi og team blander sig i støjklip med AV-HuBERTs videoramme og lydbølgeformprøver under træning. Resultatet, skriver de, er, at programmet bliver godt til at komme uden om pludren. Så meget, at AV-HuBERT opnår 50 % reduktion i ordfejlfrekvensen, eller WER, andelen af ​​forkerte ord, i forhold til tidligere talegenkendelsessystemer.

“Vores fremtidige arbejde inkluderer anvendelse af audiovisuel talegenkendelse i den virkelige verden med lav ressource og flersprogede indstillinger,” skriver de.

Så, hvor virkeligt er sådan noget som HAL 9000's mundaflæsning? Forestillingen om, at AI nu er bedre end mennesker til mundaflæsning, er blevet skrevet om i de senere år med tidligere AI-arbejde. Ordfejlsraten i AV-HuBERTs bedste visning er faktisk langt bedre end menneskelige, professionelle læbelæsere med 26,9 %. Tilsyneladende er det bedste, de fleste menneskelige læbelæsere får kun 40 % (de tager fejl fire gange ud af ti). Det er klart, at for ting som at transskribere foredrag efter kendsgerningen kan dette være et enormt løft for softwareprogrammer.

I praksis er der dog et stort forbehold. Dette simulerer virkelig læbelæsning. AV-HuBERT-resultaterne består en test på konserveret video, ikke en live, fri-form, in-the-wild samtale, som for eksempel Bowman og Poole i filmen.

I øjeblikket er du muligvis stadig sikker inde i poden.

Digital transformation | CXO | Internet of Things | Innovation | Enterprise Software | Smarte byer