Om te kunnen werken in augmented en virtual reality, gelooft Facebook dat kunstmatige intelligentie een “egocentrisch perspectief.”
Daartoe heeft het bedrijf donderdag Ego4D aangekondigd, een dataset van 2.792 uur first-person video en een reeks benchmarktests voor neurale netwerken, ontworpen om de ontwikkeling van AI die beter weet hoe het is om vanuit een first-person perspectief door virtuele werelden te bewegen.
Het project is een samenwerking tussen Facebook Reality Labs en wetenschappers van 13 onderzoeksinstellingen, waaronder academische instellingen en onderzoekslaboratoria. De details zijn uiteengezet in een paper dat is geschreven door Facebook's < /strong>Kristen Grauman, “Ego4D: Around the World in 2.8K Hours of Egocentric Video.”
Grauman is een wetenschapper bij de Facebook AI Research-eenheid van het bedrijf. Haar achtergrond als professor aan de UT Austin was gericht op computervisie en machine learning in gerelateerde onderwerpen.
Het idee is dat de dataset onderzoekers ertoe zal aanzetten neurale netwerken te ontwikkelen die uitblinken in het uitvoeren van taken vanuit een first-person perspectief – op dezelfde manier dat grote datasets zoals ImageNet bestaande AI-programma's voortstuwden vanuit een “toeschouwer” perspectief.
Het punt van egocentrische perceptie is om te proberen de problemen op te lossen die een neuraal netwerk heeft met basistaken, zoals beeldherkenning wanneer het gezichtspunt van een afbeelding verschuift van de derde persoon naar de eerste persoon, zei Facebook.
Ook: Facebook kondigt investering van $ 50 miljoen aan in 'verantwoorde' metaverse ontwikkeling
Meest beeld herkenningssystemen die objecten kunnen detecteren die vanaf de zijlijn worden gezien, hebben een hoog percentage mislukkingen als het object wordt gepresenteerd vanuit het gezichtspunt van een persoon die het object tegenkomt.
Het Ego4D-initiatief richt zich specifiek op de Metaverse, de komende wereld van meeslepende sociale netwerken die Facebook-CEO Mark Zuckerberg besprak in het laatste winstrapport van het bedrijf.
“Deze benchmarks zullen onderzoek katalyseren naar de bouwstenen die nodig zijn om slimmere AI-assistenten te ontwikkelen die niet alleen in de echte wereld kunnen begrijpen en communiceren, maar ook in de metaverse, waar fysieke realiteit, AR en VR allemaal samenkomen samen in één ruimte”, aldus Facebook.
De 2792 uur aan video zijn verzameld door Facebook-medewerkers met behulp van verschillende camera's. De Vuzix Blade augmented reality-headset gemaakt door Vuzix is er slechts één, andere zijn GoPro, Pupil Labs, ZShades en Wee-view. Het doel van het mixen van verschillende sets is om 'overfitting' te voorkomen, schrijven Grauman en medewerkers, het fenomeen wanneer een neuraal netwerk frames met video-informatie heeft onthouden, in plaats van te worden afgestemd om overeenkomsten tussen verschillen af te leiden.
Facebook zei dat de video “vastgelegd is door 750 unieke cameradragers uit 73 locaties over de hele wereld en 9 verschillende landen”. Een deel daarvan was door Facebook-medewerkers op de campus van het bedrijf en een deel door medewerkers van de universiteit.
Ook: Facebook brengt metaverse aan het werk met Horizon Workrooms (en je dacht dat Zoom-vermoeidheid erg was)
De “4D” in Ego4D verwijst naar het temporele aspect van de video. Het personeel van Facebook besteedde 250.000 uur aan het kijken naar en het geven van gesproken verhalen die samenvatten wat er in de video's gebeurt, met tijdstempels erbij.
Facebook zegt dat de vertellingen “tijdelijk compact zijn”, aangezien “we gemiddeld 13,2 zinnen per minuut video ontvingen, voor een totaal van 3,85 miljoen zinnen. In totaal beschrijven de vertellingen de Ego4D-video met 1.772 unieke werkwoorden (activiteiten) en 4.336 unieke zelfstandige naamwoorden (objecten).”
De dataset is bedoeld om neurale netten te ontwikkelen die zullen presteren op verschillende nieuwe benchmarktests. Daartoe beschrijven Grauman en medewerkers verschillende nieuwe tests die ze hebben gemaakt en waarvoor een neuraal netwerk nodig is om een reactie te kunnen produceren op: taken in het verleden, zoals herinneren; taken in het heden, zoals het categoriseren van een activiteit; of toekomstige prognoses, zoals het produceren van een beschrijving van het resultaat van een actie.