An den nächsten Dienstagen zeigt The Verge's Flaggschiff-Podcast The Vergecast eine Miniserie über den Einsatz künstlicher Intelligenz in Branchen, die oft übersehen werden, moderiert von der leitenden Reporterin von Verge, Ashley Carman. Diese Woche konzentriert sich die Serie auf KI für die Videowelt.
Insbesondere untersuchen wir, wie KI als Werkzeug verwendet wird, um Menschen dabei zu helfen, den Prozess der Erstellung von Videoinhalten zu rationalisieren . Ja, dies könnte bedeuten, dass Software eine größere Rolle im sehr menschlichen Akt der Kreativität spielt, aber was wäre, wenn maschinelle Lernwerkzeuge, anstatt uns zu ersetzen, unsere Arbeit unterstützen könnten?
Das ist es, was Scott Prevost, VP von Adobe Sensei – Adobes Plattform für maschinelles Lernen – für die KI-Produkte von Adobe vorstellt. „Sensei wurde auf unserer festen Überzeugung gegründet, dass KI die menschliche Kreativität demokratisieren und verstärken, aber nicht ersetzen wird“, sagt Prevost. „Letztendlich ermöglicht es dem Schöpfer, Dinge zu tun, die er vorher vielleicht nicht konnte. Aber auch, um einige der alltäglichen und sich wiederholenden Aufgaben zu automatisieren und zu beschleunigen, die Teil der Kreativität sind.“
Adobe hat die Initiativen von Sensei bereits in seine aktuellen Produkte integriert. Im vergangenen Herbst hat das Unternehmen eine Funktion namens Neural Filters for Photoshop veröffentlicht, mit der sich Artefakte aus komprimierten Bildern entfernen, die Beleuchtung in einem Foto ändern oder sogar das Gesicht einer Person ändern kann, um ihnen beispielsweise ein Lächeln statt eines Stirnrunzelns zu verleihen , oder ihr „Gesichtsalter“ anpassen. Aus Sicht des Benutzers geschieht all dies durch einfaches Verschieben einiger Schieberegler.

Adobe bietet auch Funktionen wie Content Aware Fill, das in seine Videobearbeitungssoftware After Effects integriert ist und Objekte nahtlos aus Videos entfernen kann – eine Aufgabe, die Stunden oder sogar Tage dauern würde, um manuell zu tun. Prevost erzählte eine Geschichte über ein kleines Team von Dokumentarfilmern, die Probleme mit ihrem Filmmaterial hatten, als sie feststellten, dass ihr Bild durch eine verschmutzte Kameralinse unerwünschte Flecken aufwies. Mit Content Aware Fill konnte das Team die unerwünschten Schönheitsfehler aus dem Video entfernen, nachdem das Objekt in nur einem einzigen Frame identifiziert wurde. Ohne Software wie die von Adobe hätte das Team Tausende von Bildern einzeln bearbeiten oder das Filmmaterial komplett neu aufnehmen müssen.

Eine weitere Funktion von Adobe namens Auto Reframe verwendet KI um Videos für verschiedene Seitenverhältnisse neu zu formatieren und neu zu formatieren, wobei die wichtigen Objekte im Rahmen bleiben, die möglicherweise mit einem regulären statischen Zuschnitt ausgeschnitten wurden.

Die Technologie in diesem Bereich ist für Verbraucher, aber auch für Profis mit großem Budget, eindeutig auf dem Vormarsch. Während KI-Videobearbeitungstechniken wie Deepfakes es noch nicht wirklich auf die große Leinwand geschafft haben – die meisten Studios verlassen sich immer noch auf traditionelles CGI –, sind Regisseure und Hollywood-Studios auf dem Weg, KI zu verwenden, wenn sie synchronisiert werden.
Ein Unternehmen namens Flawless, das sich auf KI-gesteuerte VFX- und Filmemacher-Tools spezialisiert hat, arbeitet derzeit an TrueSync, das mithilfe von maschinellem Lernen realistische, lippensynchrone Visualisierungen von Schauspielern für . erstellt mehrere Sprachen. Co-CEO und Mitbegründer von Flawless Scott Mann sagte gegenüber The Verge, dass diese Technik deutlich besser funktioniert als herkömmliche CGI, um die Mundbewegungen eines Schauspielers zu rekonstruieren.
„Sie trainieren ein Netzwerk, um zu verstehen, wie eine Person spricht, also sind die Mundbewegungen eines Ooh und Aah, verschiedene Viseme und Phoneme, aus denen unsere Sprache besteht, sehr personenspezifisch“, sagt Mann. „Und deshalb braucht es so viele Details im Prozess, um wirklich etwas Authentisches zu bekommen, das so spricht, wie diese Person gesprochen hat.“
Ein Beispiel, das Flawless geteilt hat, das wirklich herausragte, war eine Szene aus dem Film Forrest Gump mit einer Synchronisation von Tom Hanks’ Charakter, der Japanisch spricht. Die Emotion des Charakters ist immer noch präsent und das Endergebnis ist definitiv glaubwürdiger als ein herkömmlicher Overdub, da die Mundbewegung mit dem neuen Dialog synchronisiert wird. Es gibt Punkte, an denen man fast vergisst, dass es sich um einen weiteren Synchronsprecher hinter den Kulissen handelt.
Aber wie bei jeder KI, die eine Branche verändert, müssen wir auch über die Stellenbesetzung nachdenken.
Wenn jemand Projekte selbst erstellt, bearbeitet und veröffentlicht, sollten die KI-Tools von Adobe ihm viel Zeit sparen. Aber in größeren Produktionshäusern, in denen jede Rolle an einen bestimmten Spezialisten delegiert wird – Retuschierer, Koloristen, Redakteure, Social-Media-Manager – können diese Teams am Ende verkleinert werden.
Prevost von Adobe geht davon aus, dass die Technologie Jobs eher verschieben als vollständig zerstören wird. „Wir glauben, dass einige der Arbeiten, die Kreative früher in der Produktion gemacht haben, nicht mehr so viel davon tun werden“, sagt er. „Sie könnten eher wie Art Directors werden. Wir glauben, dass es den Menschen tatsächlich ermöglicht, sich mehr auf die kreativen Aspekte ihrer Arbeit zu konzentrieren und diesen breiteren kreativen Raum zu erkunden, in dem Sensei einige der banaleren Arbeiten verrichtet.“
Werden Videoteams am Ende verkleinert?
Scott Mann von Flawless hat eine ähnliche Meinung. Obwohl die Technologie des Unternehmens dazu führen kann, dass weniger Drehbuchautoren für übersetzte Filme benötigt werden, kann sie Türen für neue Beschäftigungsmöglichkeiten öffnen, argumentiert er. „Ich würde ehrlich sagen, diese Rolle ist eine Art Regisseur. Was Sie tun, ist, diese Leistung zu vermitteln. Aber ich denke, mit der Technologie und wirklich mit diesem Prozess wird es darum gehen, diese Seite der Branche zu übernehmen und diese Seite der Branche auszubauen.“
Werden Drehbuch-Supervisoren Regisseure? Oder werden Fotoretuschen zu Art Directors? Vielleicht. Aber was wir heute mit Sicherheit sehen, ist, dass viele dieser Tools bereits Workflows aus verschiedenen Punkten des kreativen Prozesses kombinieren. Audiomischung, Farbgebung und Grafik werden alle zu einem Bestandteil von Mehrzwecksoftware. Wenn Sie also im Bereich der visuellen Medien arbeiten, anstatt sich auf bestimmte kreative Talente zu spezialisieren, erfordert Ihr kreativer Job möglicherweise in Zukunft eher Generalisten.
„Ich denke, die Grenzen zwischen Bildern und Videos sowie Audio und 3D und Augmented Reality werden langsam verschwimmen“, sagt Prevost. „Früher gab es Leute, die sich auf Bilder spezialisiert haben, und Leute, die sich auf Video spezialisiert haben, und jetzt sieht man Leute, die in all diesen Medien arbeiten. Wir glauben also, dass Sensei eine große Rolle dabei spielen wird, diese Dinge auf sinnvolle Weise miteinander zu verbinden.“
The Vergecast
Der Podcast, den Sie brauchen, um die Woche in den Tech-News zu verstehen Abonnieren