Facebook forsker på AI -systemer som ser, hører og husker alt du gjør

0
113

Facebook bruker mye tid og penger på augmented reality, inkludert å bygge sine egne AR-briller med Ray-Ban. Akkurat nå kan disse gadgetene bare ta opp og dele bilder, men hva tror selskapet slike enheter vil bli brukt til i fremtiden?

Et nytt forskningsprosjekt ledet av Facebooks AI -team antyder omfanget av selskapets ambisjoner. Den forestiller AI-systemer som stadig analyserer folks liv ved å bruke førstepersonsvideo; registrere det de ser, gjør og hører for å hjelpe dem med hverdagslige oppgaver. Facebooks forskere har skissert en rekke ferdigheter de ønsker at disse systemene skal utvikle, inkludert “episodisk minne” (besvare spørsmål som “hvor la jeg nøklene mine?”) Og “audiovisuell diarisering” (husker hvem som sa hva når).

“Det er muligheter på veien for at vi vil utnytte denne typen forskning”

For øyeblikket kan ikke oppgavene som er beskrevet ovenfor oppnås pålitelig av noe AI -system, og Facebook understreker at dette er et forskningsprosjekt snarere enn en kommersiell utvikling. Imidlertid er det klart at selskapet ser på funksjonalitet som disse som fremtiden for AR -databehandling. “Definitivt, tenker vi på augmented reality og hva vi ønsker å kunne gjøre med det, er det muligheter på veien for å utnytte denne typen forskning,” sa Facebook -forsker Kristen Grauman til The Verge.

Slike ambisjoner har store konsekvenser for personvernet. Personverneksperter er allerede bekymret for hvordan Facebooks AR -briller lar brukerne skjule registrere medlemmer av publikum. Slike bekymringer vil bare forverres hvis fremtidige versjoner av maskinvaren ikke bare registrerer opptak, men analyserer og transkriberer det, og gjør brukerne til vandrende overvåkningsmaskiner.

 Facebooks første par kommersielle AR -briller kan bare ta opp og dele videoer og bilder – ikke analysere det. Bilde av Amanda Lopez for The Verge

Navnet på Facebooks forskningsprosjekt er Ego4D, som refererer til analyse av førstepersons, eller “egosentrisk” video. Den består av to hovedkomponenter: et åpent datasett med egosentrisk video og en serie benchmarks som Facebook mener AI-systemer bør kunne takle i fremtiden.

Facebook bidro til å samle 3205 timer med førstepersonsopptak fra hele verden

Datasettet er det største i sitt slag noensinne, og Facebook inngikk et samarbeid med 13 universiteter rundt om i verden for å samle inn dataene. Totalt ble det registrert rundt 3 205 timer med opptak av 855 deltakere bosatt i ni forskjellige land. Universitetene, i stedet for Facebook, var ansvarlige for å samle inn dataene. Deltakere, hvorav noen ble betalt, hadde på seg GoPro -kameraer og AR -briller for å ta opp video av uskriptet aktivitet. Dette spenner fra byggearbeid til baking til lek med kjæledyr og sosialt samvær med venner. Alle opptak ble avidentifisert av universitetene, som inkluderte å gjøre ansiktene uskarpe og fjerne personlig identifiserbar informasjon.

Grauman sier datasettet er det “første i sitt slag både i omfang og mangfold.” Det nærmeste sammenlignbare prosjektet, sier hun, inneholder 100 timer med førstepersonsopptak skutt helt på kjøkken. “Vi har åpnet øynene til disse AI -systemene for mer enn bare kjøkken i Storbritannia og Sicilia, men [for opptak fra] Saudi -Arabia, Tokyo, Los Angeles og Colombia.”

Den andre komponenten i Ego4D er en serie benchmarks, eller oppgaver, som Facebook vil at forskere rundt om i verden skal prøve å løse ved hjelp av AI -systemer som er opplært på datasettet. Selskapet beskriver disse som:

Episodisk minne : Hva skjedde når (f.eks. “Hvor forlot jeg nøklene mine?”)?

Prognoser : Hva vil jeg sannsynligvis gjøre neste gang (f.eks. ” Vent, du har allerede tilsatt salt til denne oppskriften ”)?

Hånd- og objektmanipulasjon : Hva gjør jeg (f.eks.” Lær meg hvordan spille trommene ”)?

Audiovisuell diarisering : Hvem sa hva når (f.eks.” Hva var hovedemnet i timen? “)? < /p>

Sosial interaksjon : Hvem samhandler med hvem (f.eks. “Hjelp meg bedre å høre personen snakke med meg på denne støyende restauranten”)?

Akkurat nå ville AI -systemer finne takling noen av disse problemene er utrolig vanskelige, men å lage datasett og benchmarks er prøvde og testede metoder for å stimulere utviklingen innen AI.

Opprettelsen av ett bestemt datasett og en tilhørende årlig konkurranse, kjent som ImageNet, blir ofte kreditert for å ha startet den siste AI -boomen. ImagetNet -datasettene består av bilder av et stort utvalg av objekter som forskere trente AI -systemer i å identifisere. I 2012 brukte den vinnende oppføringen i konkurransen en bestemt metode for dyp læring for å sprenge tidligere rivaler, og innviet den nåværende forskningsperioden.

Facebooks Ego4D-datasett skal hjelpe til med å spore forskning på AI-systemer som kan analysere førstepersonsdata. Bilde: Facebook

Facebook håper at Ego4D -prosjektet vil ha lignende effekter for verden av augmented reality. Selskapet sier at systemer som er opplært på Ego4D en dag ikke bare kan brukes i bærbare kameraer, men også hjemmeassistentroboter, som også er avhengige av førstepersons kameraer for å navigere rundt i verden.

“Prosjektet har sjansen til å virkelig katalysere arbeidet på dette feltet på en måte som egentlig ikke har vært mulig ennå,” sier Grauman. “For å flytte feltet vårt fra evnen til å analysere hauger av bilder og videoer som er tatt av mennesker med et helt spesielt formål, til denne flytende, pågående førstepersons visuelle strømmen som AR-systemer, roboter, må forstå i sammenheng med pågående aktivitet. ”

Facebooks utvikling av AI -overvåkingssystemer vil bekymre mange

Selv om oppgavene som Facebook skisserer absolutt virker praktiske, vil selskapets interesse for dette området bekymre mange. Facebooks rekord om personvern er avgrunnen, og spenner over datalekkasjer og 5 milliarder dollar bøter fra FTC. Det har også blitt vist gjentatte ganger at selskapet verdsetter vekst og engasjement over brukernes velvære på mange domener. Med dette i bakhodet er det bekymringsfullt at benchmarks i dette Ego4D -prosjektet ikke inneholder fremtredende personverngarantier. For eksempel nevner oppgaven “audiovisuell diarisering” (transkribering av hva forskjellige mennesker sier) aldri å fjerne data om personer som ikke vil bli spilt inn.

Når du blir spurt om disse problemene , sa en talsperson for Facebook til The Verge at det forventet at personvernstiltak ville bli innført lenger ned på linjen. “Vi forventer at i den utstrekning selskaper bruker dette datasettet og referansepunktet for å utvikle kommersielle applikasjoner, vil de utvikle sikkerhetstiltak for slike applikasjoner,” sa talspersonen. “For eksempel, før AR -briller kan forsterke noens stemme, kan det være en protokoll som de følger for å be om andres briller om tillatelse, eller de kan begrense rekkevidden til enheten, slik at den bare kan hente lyder fra mennesker med som jeg allerede har en samtale eller som er i min umiddelbare nærhet. ”

Foreløpig er slike sikkerhetstiltak bare hypotetiske.