Facebook erforscht KI-Systeme, die alles sehen, hören und sich an alles erinnern, was du tust

0
108

Facebook investiert viel Zeit und Geld in Augmented Reality, einschließlich der Entwicklung eigener AR-Brillen mit Ray-Ban. Im Moment können diese Geräte nur Bilder aufnehmen und teilen, aber wofür werden solche Geräte nach Ansicht des Unternehmens in Zukunft verwendet?

Ein neues Forschungsprojekt unter der Leitung des KI-Teams von Facebook zeigt den Umfang der Ambitionen des Unternehmens. Es stellt sich KI-Systeme vor, die ständig das Leben der Menschen mithilfe von First-Person-Video analysieren; aufzeichnen, was sie sehen, tun und hören, um sie bei alltäglichen Aufgaben zu unterstützen. Die Forscher von Facebook haben eine Reihe von Fähigkeiten skizziert, die diese Systeme entwickeln sollen, darunter „episodisches Gedächtnis“ (Beantwortung von Fragen wie „Wo habe ich meine Schlüssel gelassen?“) und „audiovisuelle Diarisierung“ (erinnern, wer was wann gesagt hat).

„Es gibt Möglichkeiten, diese Art von Forschung zu nutzen“

Die oben skizzierten Aufgaben können derzeit von keinem KI-System zuverlässig gelöst werden, und Facebook betont, dass es sich hier eher um ein Forschungsprojekt als um eine kommerzielle Entwicklung handelt. Es ist jedoch klar, dass das Unternehmen solche Funktionen als die Zukunft des AR-Computings sieht. „Wenn wir über Augmented Reality nachdenken und was wir damit machen möchten, gibt es definitiv Möglichkeiten, diese Art von Forschung zu nutzen“, sagte Kristen Grauman, Facebook-KI-Forscherin gegenüber The Verge.

Solche Ambitionen haben enorme Auswirkungen auf die Privatsphäre. Datenschutzexperten machen sich bereits Sorgen darüber, wie die AR-Brille von Facebook es den Trägern ermöglicht, Mitglieder der Öffentlichkeit heimlich aufzunehmen. Solche Bedenken werden nur noch verschärft, wenn zukünftige Versionen der Hardware das Filmmaterial nicht nur aufzeichnen, sondern es analysieren und transkribieren, wodurch die Träger zu wandelnden Überwachungsgeräten werden.

Die erste kommerzielle AR-Brille von Facebook kann nur Videos und Bilder aufnehmen und teilen – nicht analysieren. Foto von Amanda Lopez für The Verge

Das Forschungsprojekt von Facebook heißt Ego4D, das sich auf die Analyse von Ego-Videos bezieht. Es besteht aus zwei Hauptkomponenten: einem offenen Datensatz egozentrischer Videos und einer Reihe von Benchmarks, von denen Facebook glaubt, dass KI-Systeme in Zukunft in der Lage sein sollten, diese zu bewältigen.

Facebook hat dazu beigetragen, 3.205 Stunden Ego-Aufnahmen aus der ganzen Welt zu sammeln

Der Datensatz ist der größte seiner Art, der jemals erstellt wurde, und Facebook hat sich mit 13 Universitäten auf der ganzen Welt zusammengetan, um die Daten zu sammeln. Insgesamt wurden rund 3.205 Stunden Filmmaterial von 855 Teilnehmern in neun verschiedenen Ländern aufgenommen. Für die Erhebung der Daten waren die Universitäten und nicht Facebook zuständig. Die Teilnehmer, von denen einige bezahlt wurden, trugen GoPro-Kameras und AR-Brillen, um Videos von Aktivitäten ohne Drehbuch aufzunehmen. Dies reicht von Bauarbeiten über Backen bis hin zum Spielen mit Haustieren und Geselligkeit mit Freunden. Das gesamte Filmmaterial wurde von den Universitäten anonymisiert, wobei die Gesichter von Umstehenden verwischt und alle personenbezogenen Daten entfernt wurden.

Grauman sagt, der Datensatz sei „der erste seiner Art in Bezug auf Umfang und Vielfalt“. Das nächstgelegene vergleichbare Projekt, sagt sie, enthält 100 Stunden First-Person-Filmmaterial, das vollständig in Küchen aufgenommen wurde. „Wir haben die Augen dieser KI-Systeme nicht nur für Küchen in Großbritannien und Sizilien geöffnet, sondern auch für Aufnahmen aus Saudi-Arabien, Tokio, Los Angeles und Kolumbien.“

Die zweite Komponente von Ego4D ist eine Reihe von Benchmarks oder Aufgaben, die Facebook von Forschern auf der ganzen Welt mit Hilfe von KI-Systemen lösen soll, die auf seinem Datensatz trainiert wurden. Das Unternehmen beschreibt diese als:

Episodisches Gedächtnis: Was ist wann passiert (z. B. „Wo habe ich meine Schlüssel gelassen?“)?

Prognose: Was werde ich wahrscheinlich als nächstes tun (z. B. „ Warten Sie, Sie haben diesem Rezept bereits Salz hinzugefügt“)?

Hand- und Objektmanipulation: Was mache ich (z Schlagzeug spielen“)?

Audiovisuelles Tagebuch: Wer hat wann was gesagt (z. B. „Was war das Hauptthema im Unterricht?“)?< /p>

Soziale Interaktion: Wer interagiert mit wem (z. B. “Helfen Sie mir, die Person in diesem lauten Restaurant besser zu hören”)?

Im Moment würden KI-Systeme eine Lösung finden Jedes dieser Probleme ist unglaublich schwierig, aber die Erstellung von Datensätzen und Benchmarks sind bewährte Methoden, um die Entwicklung im Bereich der KI voranzutreiben.

Tatsächlich wird die Erstellung eines bestimmten Datensatzes und ein damit verbundener jährlicher Wettbewerb, bekannt als ImageNet, oft als Anstoß für den jüngsten KI-Boom angesehen. Die ImagetNet-Datensätze bestehen aus Bildern einer Vielzahl von Objekten, auf deren Identifizierung die Forscher KI-Systeme trainierten. Im Jahr 2012 nutzte der Gewinnerbeitrag des Wettbewerbs eine spezielle Methode des Deep Learning, um vergangene Rivalen zu sprengen und damit die aktuelle Ära der Forschung einzuläuten.

Der Ego4D-Datensatz von Facebook soll die Forschung zu KI-Systemen vorantreiben, die Ego-Daten analysieren können. Bild: Facebook

Ähnliche Auswirkungen erhofft sich Facebook von seinem Ego4D-Projekt für die Welt der Augmented Reality. Das Unternehmen sagt, dass auf Ego4D trainierte Systeme eines Tages nicht nur in tragbaren Kameras verwendet werden könnten, sondern auch in Heimassistenten-Robotern, die auch auf Ego-Kameras angewiesen sind, um die Welt um sie herum zu navigieren.

„Das Projekt hat die Chance, die Arbeit in diesem Bereich auf eine Weise zu katalysieren, die bisher nicht wirklich möglich war“, sagt Grauman. „Unser Feld von der Fähigkeit, Stapel von Fotos und Videos zu analysieren, die zu einem ganz besonderen Zweck von Menschen aufgenommen wurden, hin zu diesem fließenden, fortlaufenden visuellen Strom aus der ersten Person, den AR-Systeme, Roboter, im Kontext des fortlaufenden verstehen müssen Aktivität.”

Facebooks Entwicklung von KI-Überwachungssystemen wird viele beunruhigen

Auch wenn die Aufgaben, die Facebook skizziert, sicherlich praktisch erscheinen, wird das Interesse des Unternehmens an diesem Bereich viele beunruhigen. Die Bilanz von Facebook in Bezug auf den Datenschutz ist katastrophal und umfasst Datenlecks und Geldstrafen in Höhe von 5 Milliarden US-Dollar von der FTC. Es hat sich auch immer wieder gezeigt, dass das Unternehmen in vielen Bereichen Wachstum und Engagement über das Wohlbefinden der Nutzer stellt. Vor diesem Hintergrund ist es besorgniserregend, dass Benchmarks in diesem Ego4D-Projekt keine prominenten Datenschutzvorkehrungen enthalten. Zum Beispiel erwähnt die Aufgabe „audio-visuelle Diarisierung“ (das Transkribieren von Aussagen verschiedener Personen) nie das Entfernen von Daten über Personen, die nicht aufgezeichnet werden möchten.

Wenn Sie nach diesen Problemen gefragt werden , sagte ein Sprecher von Facebook gegenüber The Verge, man erwarte, dass im weiteren Verlauf Datenschutzmaßnahmen eingeführt werden. „Wir gehen davon aus, dass Unternehmen, die diesen Datensatz und diesen Benchmark zur Entwicklung kommerzieller Anwendungen verwenden, Schutzmaßnahmen für solche Anwendungen entwickeln“, sagte der Sprecher. „Bevor eine AR-Brille beispielsweise die Stimme einer Person verbessern kann, könnte es ein Protokoll geben, dem sie folgen, um die Brille einer anderen Person um Erlaubnis zu bitten, oder sie könnten die Reichweite des Geräts einschränken, sodass es nur Geräusche von Personen mit mit denen ich bereits ein Gespräch führe oder die sich in meiner unmittelbaren Nähe befinden.“

Derzeit sind solche Sicherheitsvorkehrungen nur hypothetisch.