Facebook: Her kommer AI til Metaverse

0
100

 Tiernan Ray

Av Tiernan Ray | 14. oktober 2021 | Tema: Kunstig intelligens

 facebook-2021-before-after-detectron-modelfinal.png

For å operere i forstørret og virtuell virkelighet tror Facebook at kunstig intelligens må utvikle et “egosentrisk perspektiv”.

Til dette formål kunngjorde selskapet torsdag Ego4D , et datasett på 2792 timer med førstepersonsvideo og et sett med referansetester for nevrale nett, designet for å oppmuntre utviklingen av AI som er kunnskap om hvordan det er å bevege seg gjennom virtuelle verdener fra et førstepersonsperspektiv.

Prosjektet er et samarbeid mellom Facebooks Facebook Reality Labs, i samarbeid med forskere fra tretten forskningsinstitusjoner, inkludert akademiske institusjoner og forskningslaboratorier . Detaljene i arbeidet er lagt ut i et papir som er forfattet av Facebooks < sterk> Kristen Grauman, “Ego4D: Jorden rundt i 2,8K timer med egosentrisk video.”

Grauman er forsker ved selskapets Facebook AI Research -enhet. Hennes bakgrunn som professor ved UT Austin har vært fokusert på datasyn og maskinlæring i relaterte emner.

Tanken er at datasettet skal drive forskere til å utvikle nevrale nett som utmerker seg ved å utføre oppgaver fra et førstepersonsperspektiv på samme måte som store datasett som ImageNet drev eksisterende AI-programmer fra et “tilskuer” -perspektiv.

Poenget med egosentrisk persepsjon er å prøve å fikse problemene et nevrale nettverk har med grunnleggende oppgaver som bildegjenkjenning når synspunktet til et bilde skifter fra tredjeperson til første person, sa Netflix.

Også: Facebook kunngjør 50 millioner dollar investering i 'ansvarlig' metaverse utvikling

De fleste bildegjenkjenningssystemer som gjør det bra når de oppdager objekter sett fra sidelinjen i stedet har høye feilfrekvenser objektet presenteres slik det ville blitt sett fra synspunktet til en person som møter objektet.

Ego4D -initiativet er spesifikt rettet mot The Metaverse, den kommende verden av oppslukende sosiale nettverk som Facebook -sjef Mark Zuckerberg diskuterte i selskapets siste resultatrapport.

“Disse referansene vil katalysere forskning på byggesteinene som er nødvendige for å utvikle smartere AI -assistenter som kan forstå og samhandle ikke bare i den virkelige verden, men også i metaversen, der fysisk virkelighet, AR og VR alle kommer sammen i et enkelt rom, “sa Facebook.

De 2792 timene med video ble samlet inn av Facebook -ansatte ved hjelp av en rekke kameraer. Vuzix Blade augmented reality-hodesett laget av Vuzix er bare ett, andre inkluderer GoPro, Pupil Labs, ZShades og Wee-view. Hensikten med å blande forskjellige sett er å unngå “overpassing”, skriver Grauman og samarbeidspartnere, fenomenet når et nevrale nettverk bare har lagret rammer for videoinformasjon i stedet for å bli innstilt på å utlede likheter på tvers av forskjeller.

Facebook sa at videoen ble “fanget opp av 750 unike kamerabærere fra 73 verdensomspennende steder og 9 forskjellige land.” Noe av det var av Facebook -ansatte på selskapets campus, noen av universitetets samarbeidspartnere.

Også: Facebook bringer metaverse på jobb med Horizon Workrooms (og du trodde Zoom -tretthet var dårlig)

“4D” i navnet er for det tidsmessige aspektet av videoen Facebooks ansatte brukte 250 000 timer på å se på video og gi talte fortellinger som oppsummerer hva som skjer i videoene, med tidsstempler vedlagt.

Facebook sier fortellingene “er tidsmessig tette”, gitt at “I gjennomsnitt mottok vi 13,2 setninger per minutt video, totalt 3,85 millioner setninger. Totalt beskriver fortellingene Ego4D -videoen ved hjelp av 1772 unike verb (aktiviteter) og 4336 unike substantiv (objekter). ”

Datasettet er ment å brukes til å utvikle nevrale nett som vil utføre på en rekke nye referansetester. For dette formål beskriver Grauman og samarbeidspartnere i avisen flere nye tester de har kommet med som krever et nevrale nett for å kunne produsere et svar på tidligere oppgaver, for eksempel tilbakekalling, oppgaver i nåtiden, for eksempel kategorisering av et aktivitet eller fremtidig prognose, for eksempel å lage en beskrivelse av resultatet av en handling.

Facebook

For eksempel kan en oppgave for et nevralnett være å svare på et naturlig språk som krever at programmet må matche innholdet i spørringen til en videoramme. Et eksempel er å spørre datamaskinen “Når leste jeg for barna mine”, og datamaskinen måtte finne scenen der kamerabæreren leste for barna sine. Oppgaven er merket av personalet for menneskelige kommentarer, som får en forhåndsformatert liste over etiketter og må tildele dem til klipp.

Også: Facebook har allerede minnene dine, smarte briller får det mer

Facebook sa at de har 74 000 forespørsler på denne måten tildelt 800 timers video.

I en fremtidig prediksjonstest kan det hende at datamaskinen må forutsi hvilket objekt i en videoramme kameraet som bærer kameraet neste gang. Så hvis de er ved et bord og ruller deig, kan den neste handlingen som er spådd være å ta en deigkule på bordet. Programmet vil gjøre prediksjonen ved å velge en av en forhåndsinnstilt liste over verb som har blitt festet til videorammer av merknadspersonellet, og legge til en tidsestimering, så spytte ut “ta deig på 0,8 sekunder.”

Datasettene for Ego4D vil bli gjort tilgjengelig på Github neste måned, sa Facebook. Brukere må signere en databrukavtale.

Relaterte emner:

Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software  Tiernan Ray

Av Tiernan Ray | 14. oktober 2021 | Tema: Kunstig intelligens