Facebook: Her kommer AI'en til Metaverse

0
115

 Tiernan Ray

Af Tiernan Ray | 14. oktober 2021 | Emne: Kunstig intelligens

 facebook-2021-before-after-detectron-modelfinal.png

Facebook AI

For at fungere i augmented og virtual reality mener Facebook, at kunstig intelligens skal udvikle en “egocentrisk perspektiv.”

Med det for øje annoncerede virksomheden torsdag Ego4D , et datasæt på 2.792 timers førstepersonsvideo og et sæt benchmark-tests for neurale net, der skal opmuntre udviklingen af ​​AI, der er klogere på, hvordan det er at bevæge sig gennem virtuelle verdener fra et førstepersonsperspektiv.

Projektet er et samarbejde mellem Facebook Reality Labs og forskere fra 13 forskningsinstitutioner, herunder akademiske institutioner og forskningslaboratorier . Detaljerne er beskrevet i et papir, der er forfattet af Facebooks < /strong> Kristen Grauman, “Ego4D: Jorden rundt i 2,8K timers egocentrisk video.”

Grauman er en videnskabsmand med virksomhedens Facebook AI Research -enhed. Hendes baggrund som professor ved UT Austin har været fokuseret på computersyn og maskinlæring i beslægtede emner.

Ideen er, at datasættet vil få forskere til at udvikle neurale net, der udmærker sig ved at udføre opgaver fra et førstepersonsperspektiv-på samme måde som store datasæt som ImageNet drev eksisterende AI-programmer fra en “tilskuer” perspektiv.

Pointen med egocentrisk opfattelse er at forsøge at løse de problemer, et neuralt netværk har med grundlæggende opgaver, såsom billedgenkendelse, når synspunktet for et billede skifter fra tredjeperson til førstepersons, sagde Facebook.

Også: Facebook annoncerer 50 millioner dollars investering i 'ansvarlig' metaverse udvikling

Mest image genkendelsessystemer, der kan registrere objekter set fra sidelinjen, har høje fejlfrekvenser, hvis objektet præsenteres fra en persons stød på objektet.

Ego4D -initiativet er specifikt rettet mod Metaverse, den kommende verden af ​​fordybende sociale netværk, som Facebooks CEO Mark Zuckerberg diskuterede ved virksomhedens sidste indtjeningsrapport.

“Disse benchmarks vil katalysere forskning om de byggesten, der er nødvendige for at udvikle klogere AI -assistenter, der kan forstå og interagere ikke kun i den virkelige verden, men også i metaversen, hvor fysisk virkelighed, AR og VR alle kommer sammen i et enkelt rum, “sagde Facebook.

De 2.792 timers video blev indsamlet af Facebook -personale ved hjælp af en række forskellige kameraer. Vuzix Blade augmented reality-headsettet lavet af Vuzix er kun et, andre inkluderer GoPro, Pupil Labs, ZShades og Wee-view. Formålet med at blande forskellige sæt er at undgå “overmontering”, skriver Grauman og samarbejdspartnere, fænomenet, når et neuralt netværk har gemt rammer for videoinformation uden for at blive afstemt til at udlede ligheder på tværs af forskelle.

Facebook sagde, at videoen blev “fanget af 750 unikke kamerabærere fra 73 steder i verden og 9 forskellige lande.” Noget af det var af Facebook -ansatte på virksomhedens campus og nogle af universitetets samarbejdspartnere.

Også: Facebook bringer metaverse til arbejde med Horizon Workrooms (og du troede, at Zoom -træthed var dårlig)

“4D” i Ego4D refererer til det tidsmæssige aspekt af videoen Facebooks personale brugte 250.000 timer på at se på og levere talte fortællinger, der opsummerede, hvad der foregår i videoerne, med tidsstempler vedhæftet.

Facebook siger, at fortællingerne “er tidsmæssigt tætte” i betragtning af, at “I gennemsnit modtog vi 13,2 sætninger pr. Minut video, i alt 3,85 mio. Sætninger. I alt beskriver fortællingerne Ego4D -videoen ved hjælp af 1.772 unikke verber (aktiviteter) og 4.336 unikke substantiver (objekter). ”

Datasættet er beregnet til at blive brugt til at udvikle neurale net, der vil udføre på en række nye benchmark -tests. Til dette formål beskriver Grauman og samarbejdspartnere flere nye tests, de har oprettet, der kræver et neuralt net for at kunne producere et svar på: tidligere opgaver, såsom tilbagekaldelse; opgaver i nuet, såsom kategorisering af en aktivitet; eller fremtidig prognose, f.eks. fremstilling af en beskrivelse af resultatet af en handling.

Facebook AI < /figur>

For eksempel kan en opgave for et neuralt net være at besvare en forespørgsel på naturligt sprog, der kræver, at programmet matcher forespørgselens indhold til en videoramme. Et eksempel er at spørge computeren: “Hvornår læste jeg for mine børn?” Computeren skulle finde scenen, hvor kamerabæreren læste for deres børn. Opgaven er mærket af personalet i de menneskelige annoteringer, som får en forudformateret liste over etiketter og skal tildele dem til klip.

Facebook sagde, at de har 74.000 forespørgsler på denne måde tildelt 800 timers video.

Facebook AI

I en fremtidig forudsigelsestest skal computeren muligvis forudsige med hvilket objekt i en videoramme kameraet, der bærer kameraet, næste gang vil interagere. Så hvis de er ved et bord rullende dej, kan den næste handling, der forudsiges, være at få fat i en dejkugle på bordet. Programmet vil gøre forudsigelsen ved at vælge en af ​​en forudindstillet liste over verber, der er blevet knyttet til videorammer af annotationspersonalet, og tilføje et tidsestimat, som at spytte “tag dej på 0,8 sekunder.”

Også: Facebook har allerede dine minder, smarte briller får det mere

Datasættene for Ego4D vil blive lavet tilgængelig på Github i næste måned, sagde Facebook. Brugere skal underskrive en databrugsaftale.

Relaterede emner:

Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software  Tiernan Ray

Af Tiernan Ray | 14. oktober 2021 | Emne: Kunstig intelligens