For å operere i forstørret og virtuell virkelighet tror Facebook at kunstig intelligens må utvikle et “egosentrisk perspektiv”.
Til dette formål kunngjorde selskapet torsdag Ego4D , et datasett på 2792 timer med førstepersonsvideo og et sett med referansetester for nevrale nett, designet for å oppmuntre utviklingen av AI som er kunnskap om hvordan det er å bevege seg gjennom virtuelle verdener fra et førstepersonsperspektiv.
Prosjektet er et samarbeid mellom Facebooks Facebook Reality Labs, i samarbeid med forskere fra tretten forskningsinstitusjoner, inkludert akademiske institusjoner og forskningslaboratorier . Detaljene i arbeidet er lagt ut i et papir som er forfattet av Facebooks < sterk> Kristen Grauman, “Ego4D: Jorden rundt i 2,8K timer med egosentrisk video.”
Grauman er forsker ved selskapets Facebook AI Research -enhet. Hennes bakgrunn som professor ved UT Austin har vært fokusert på datasyn og maskinlæring i relaterte emner.
Tanken er at datasettet skal drive forskere til å utvikle nevrale nett som utmerker seg ved å utføre oppgaver fra et førstepersonsperspektiv på samme måte som store datasett som ImageNet drev eksisterende AI-programmer fra et “tilskuer” -perspektiv.
Poenget med egosentrisk persepsjon er å prøve å fikse problemene et nevrale nettverk har med grunnleggende oppgaver som bildegjenkjenning når synspunktet til et bilde skifter fra tredjeperson til første person, sa Netflix.
Også: Facebook kunngjør 50 millioner dollar investering i 'ansvarlig' metaverse utvikling
De fleste bildegjenkjenningssystemer som gjør det bra når de oppdager objekter sett fra sidelinjen i stedet har høye feilfrekvenser objektet presenteres slik det ville blitt sett fra synspunktet til en person som møter objektet.
Ego4D -initiativet er spesifikt rettet mot The Metaverse, den kommende verden av oppslukende sosiale nettverk som Facebook -sjef Mark Zuckerberg diskuterte i selskapets siste resultatrapport.
“Disse referansene vil katalysere forskning på byggesteinene som er nødvendige for å utvikle smartere AI -assistenter som kan forstå og samhandle ikke bare i den virkelige verden, men også i metaversen, der fysisk virkelighet, AR og VR alle kommer sammen i et enkelt rom, “sa Facebook.
De 2792 timene med video ble samlet inn av Facebook -ansatte ved hjelp av en rekke kameraer. Vuzix Blade augmented reality-hodesett laget av Vuzix er bare ett, andre inkluderer GoPro, Pupil Labs, ZShades og Wee-view. Hensikten med å blande forskjellige sett er å unngå “overpassing”, skriver Grauman og samarbeidspartnere, fenomenet når et nevrale nettverk bare har lagret rammer for videoinformasjon i stedet for å bli innstilt på å utlede likheter på tvers av forskjeller.
Facebook sa at videoen ble “fanget opp av 750 unike kamerabærere fra 73 verdensomspennende steder og 9 forskjellige land.” Noe av det var av Facebook -ansatte på selskapets campus, noen av universitetets samarbeidspartnere.
Også: Facebook bringer metaverse på jobb med Horizon Workrooms (og du trodde Zoom -tretthet var dårlig)
“4D” i navnet er for det tidsmessige aspektet av videoen Facebooks ansatte brukte 250 000 timer på å se på video og gi talte fortellinger som oppsummerer hva som skjer i videoene, med tidsstempler vedlagt.
Facebook sier fortellingene “er tidsmessig tette”, gitt at “I gjennomsnitt mottok vi 13,2 setninger per minutt video, totalt 3,85 millioner setninger. Totalt beskriver fortellingene Ego4D -videoen ved hjelp av 1772 unike verb (aktiviteter) og 4336 unike substantiv (objekter). ”
Datasettet er ment å brukes til å utvikle nevrale nett som vil utføre på en rekke nye referansetester. For dette formål beskriver Grauman og samarbeidspartnere i avisen flere nye tester de har kommet med som krever et nevrale nett for å kunne produsere et svar på tidligere oppgaver, for eksempel tilbakekalling, oppgaver i nåtiden, for eksempel kategorisering av et aktivitet eller fremtidig prognose, for eksempel å lage en beskrivelse av resultatet av en handling.