För att fungera i förstärkt och virtuell verklighet tror Facebook att artificiell intelligens kommer att behöva utveckla en “egocentriskt perspektiv.”
För detta ändamål tillkännagav företaget på torsdagen Ego4D , en datauppsättning på 2792 timmar första personers video och en uppsättning riktmärktester för neurala nät, avsedda att uppmuntra utvecklingen av AI som är bättre på hur det är att röra sig genom virtuella världar ur ett förstapersonsperspektiv.
Projektet är ett samarbete mellan Facebook Reality Labs och forskare från 13 forskningsinstitutioner, inklusive akademiska institutioner och forskningslaboratorier . Detaljerna beskrivs i ett dokument som är författat av Facebooks < /strong> Kristen Grauman, “Ego4D: Around the World in 2.8K Hours of Egocentric Video.”
Grauman är forskare med företagets Facebook AI Research -enhet. Hennes bakgrund som professor vid UT Austin har varit inriktad på datorsyn och maskininlärning i relaterade ämnen.
Tanken är att datauppsättningen kommer att driva forskare att utveckla neurala nät som utmärker sig för att utföra uppgifter från ett förstapersonsperspektiv-på samma sätt som stora datamängder som ImageNet drev befintliga AI-program från en “åskådare” perspektiv.
Egocentrisk uppfattning är att försöka åtgärda problemen som ett neuralt nätverk har med grundläggande uppgifter, till exempel bildigenkänning när bildens synvinkel skiftar från tredje person till första person, sa Facebook.
Också: Facebook tillkännager investeringar på 50 miljoner dollar i ”ansvarsfull” metaversiell utveckling
Mest bild igenkänningssystem som kan upptäcka objekt sett från sidlinjen har höga felfrekvenser om objektet presenteras från en persons synvinkel på objektet.
Ego4D -initiativet riktar sig specifikt till Metaverse, den kommande världen av uppslukande sociala nätverk som Facebooks VD Mark Zuckerberg diskuterade vid företagets senaste resultatrapport.
“Dessa riktmärken kommer att katalysera forskning om de byggstenar som är nödvändiga för att utveckla smartare AI -assistenter som kan förstå och interagera inte bara i den verkliga världen utan också i metaversen, där fysisk verklighet, AR och VR alla kommer tillsammans i ett enda utrymme, säger Facebook.
De 2 792 timmarna video samlades in av Facebook -personal med hjälp av en mängd olika kameror. Vuzix Blade augmented reality-headset från Vuzix är bara ett, andra inkluderar GoPro, Pupil Labs, ZShades och Wee-view. Syftet med att blanda olika uppsättningar är att undvika “överpassning”, skriver Grauman och medarbetare, fenomenet när ett neuralt nätverk har memorerat ramar av videoinformation, snarare än att vara inställd för att dra slutsatser om skillnader.
Facebook sa att videon “fångades av 750 unika kamerabärare från 73 platser i hela världen och 9 olika länder.” En del av det var av Facebook -anställda på företagets campus och några av universitetets samarbetspartners.
Också: Facebook tar metaverse till jobbet med Horizon Workrooms (och du trodde att Zoom -trötthet var dålig)
“4D” i Ego4D refererar till den tidsmässiga aspekten av videon Facebooks personal spenderade 250 000 timmar på att titta på och ge talade berättelser som sammanfattar vad som händer i videorna, med tidsstämplar bifogade.
Facebook säger att berättelserna “är tidsmässigt täta”, med tanke på att “I genomsnitt fick vi 13,2 meningar per minut video, totalt 3,85 miljoner meningar. Totalt beskriver berättelserna Ego4D -videon med 1772 unika verb (aktiviteter) och 4336 unika substantiv (objekt). ”
Datauppsättningen är avsedd att användas för att utveckla neurala nät som kommer att prestera på en mängd nya riktmärktester. För detta ändamål beskriver Grauman och samarbetspartners flera nya tester som de har skapat som kräver ett neuralt nät för att kunna ge ett svar på: tidigare uppgifter, till exempel återkallelse; uppgifter i nuet, till exempel kategorisering av en aktivitet; eller framtida prognoser, till exempel att ta fram en beskrivning av resultatet av en åtgärd.