Facebook: Här kommer AI för Metaverse

0
97

 Tiernan Ray

Av Tiernan Ray | 14 oktober 2021 | Ämne: Artificiell intelligens

 facebook-2021-before-after-detectron-modelfinal.png

Facebook AI

För att fungera i förstärkt och virtuell verklighet tror Facebook att artificiell intelligens kommer att behöva utveckla en “egocentriskt perspektiv.”

För detta ändamål tillkännagav företaget på torsdagen Ego4D , en datauppsättning på 2792 timmar första personers video och en uppsättning riktmärktester för neurala nät, avsedda att uppmuntra utvecklingen av AI som är bättre på hur det är att röra sig genom virtuella världar ur ett förstapersonsperspektiv.

Projektet är ett samarbete mellan Facebook Reality Labs och forskare från 13 forskningsinstitutioner, inklusive akademiska institutioner och forskningslaboratorier . Detaljerna beskrivs i ett dokument som är författat av Facebooks < /strong> Kristen Grauman, “Ego4D: Around the World in 2.8K Hours of Egocentric Video.”

Grauman är forskare med företagets Facebook AI Research -enhet. Hennes bakgrund som professor vid UT Austin har varit inriktad på datorsyn och maskininlärning i relaterade ämnen.

Tanken är att datauppsättningen kommer att driva forskare att utveckla neurala nät som utmärker sig för att utföra uppgifter från ett förstapersonsperspektiv-på samma sätt som stora datamängder som ImageNet drev befintliga AI-program från en “åskådare” perspektiv.

Egocentrisk uppfattning är att försöka åtgärda problemen som ett neuralt nätverk har med grundläggande uppgifter, till exempel bildigenkänning när bildens synvinkel skiftar från tredje person till första person, sa Facebook.

Också: Facebook tillkännager investeringar på 50 miljoner dollar i ”ansvarsfull” metaversiell utveckling

Mest bild igenkänningssystem som kan upptäcka objekt sett från sidlinjen har höga felfrekvenser om objektet presenteras från en persons synvinkel på objektet.

Ego4D -initiativet riktar sig specifikt till Metaverse, den kommande världen av uppslukande sociala nätverk som Facebooks VD Mark Zuckerberg diskuterade vid företagets senaste resultatrapport.

“Dessa riktmärken kommer att katalysera forskning om de byggstenar som är nödvändiga för att utveckla smartare AI -assistenter som kan förstå och interagera inte bara i den verkliga världen utan också i metaversen, där fysisk verklighet, AR och VR alla kommer tillsammans i ett enda utrymme, säger Facebook.

De 2 792 timmarna video samlades in av Facebook -personal med hjälp av en mängd olika kameror. Vuzix Blade augmented reality-headset från Vuzix är bara ett, andra inkluderar GoPro, Pupil Labs, ZShades och Wee-view. Syftet med att blanda olika uppsättningar är att undvika “överpassning”, skriver Grauman och medarbetare, fenomenet när ett neuralt nätverk har memorerat ramar av videoinformation, snarare än att vara inställd för att dra slutsatser om skillnader.

Facebook sa att videon “fångades av 750 unika kamerabärare från 73 platser i hela världen och 9 olika länder.” En del av det var av Facebook -anställda på företagets campus och några av universitetets samarbetspartners.

Också: Facebook tar metaverse till jobbet med Horizon Workrooms (och du trodde att Zoom -trötthet var dålig)

“4D” i Ego4D refererar till den tidsmässiga aspekten av videon Facebooks personal spenderade 250 000 timmar på att titta på och ge talade berättelser som sammanfattar vad som händer i videorna, med tidsstämplar bifogade.

Facebook säger att berättelserna “är tidsmässigt täta”, med tanke på att “I genomsnitt fick vi 13,2 meningar per minut video, totalt 3,85 miljoner meningar. Totalt beskriver berättelserna Ego4D -videon med 1772 unika verb (aktiviteter) och 4336 unika substantiv (objekt). ”

Datauppsättningen är avsedd att användas för att utveckla neurala nät som kommer att prestera på en mängd nya riktmärktester. För detta ändamål beskriver Grauman och samarbetspartners flera nya tester som de har skapat som kräver ett neuralt nät för att kunna ge ett svar på: tidigare uppgifter, till exempel återkallelse; uppgifter i nuet, till exempel kategorisering av en aktivitet; eller framtida prognoser, till exempel att ta fram en beskrivning av resultatet av en åtgärd.

Facebook AI < /figur>

Till exempel kan en uppgift för ett neuralt nät vara att svara på en fråga med naturligt språk som kräver att programmet matchar innehållet i frågan till en videoram. Ett exempel är att fråga datorn: “När läste jag för mina barn?” Datorn skulle behöva hitta scenen där kamerabäraren läste för sina barn. Uppgiften är märkt av personalen, som får en förformaterad lista med etiketter och måste tilldela dem till klipp.

Facebook sa att de har 74 000 frågor på detta sätt tilldelade 800 timmars video.

Facebook AI

I ett framtida förutsägelsestest kan datorn behöva förutse med vilket objekt i en videoram kamerabäraren kommer att interagera. Så, om de är vid ett bord rullande deg, kan nästa åtgärd som förutspås vara att ta en degboll på bordet. Programmet kommer att göra förutsägelsen genom att välja en av en förinställd lista över verb som har bifogats till videoramar av annotationspersonalen och lägga till en tidsuppskattning, som att spotta ut “ta deg på 0,8 sekunder.”

Dessutom: Facebook har redan dina minnen, smarta glasögon får det mer

Datauppsättningarna för Ego4D kommer att göras tillgänglig på Github nästa månad, sa Facebook. Användare måste underteckna ett dataanvändningsavtal.

Relaterade ämnen:

Big Data Analytics Digital Transformation CXO Internet of Things Innovation Enterprise Software  Tiernan Ray

Av Tiernan Ray | 14 oktober 2021 | Ämne: Artificiell intelligens