Deep Video PortraitsMit KI zur optimalen Filmsynchronisation
Von
Jürgen Schreier
4 min Lesedauer
Schlechte Lippensynchronisation in Filmen wirkt häufig wirkt für die Zuschauer oft irritierend. Dank einer KI-basierten Software könnte das bald "Kinogeschichte" sein. Doch auch für allerlei visuelle und cineastische Gags ist "Deep Video Portraits" gut.
Ein altes Problem bei der "Lokalisierung" vom Filmen - der Gesichtsausdruck der Schauspieler passt nicht zur synchronisierten Filmversion - kann dank KI-basierter Software jetzt gelöst werden.
Unter anderem durch den Einsatz von Künstlicher Intelligenz haben Informatiker ein Softwarepaket entwickelt, das den Gesichtsausdruck von Schauspielern an eine synchronisierte Filmversion anpassen kann. Für die Filmbranche bedeutet das erheblich weniger Kosten und Zeitaufwand. Die Software kann aber auch zur Korrektur von Blick- und Kopfhaltung in Videokonferenzen verwendet werden und eröffnet neue Möglichkeiten der Video-Postproduktion.
Die Technik wurde von einem internationalen Team unter Leitung einer Gruppe des Max-Planck-Instituts für Informatik, Saarbrücken, entwickelt. Daran beteiligt waren Forscher der University of Bath, von Technicolor, der TU München sowie der Stanford University. Die Arbeit mit dem Titel *Deep Video Portraits* wurde erstmals auf der Konferenz für Computergrafik und Animationstechnologie SIGGRAPH 2018 am 16. August 2018 im kanadischen Vancouver vorgestellt.
Deep Video Portraits animiert das ganze Gesicht
Im Gegensatz zu früheren Methoden, die sich nur auf die Bewegungen des Gesichtsinneren konzentrieren, kann Deep Video Portraits auch das gesamte Gesicht einschließlich Augen, Augenbrauen und Kopfposition in Videos animieren, wobei die aus der Computergrafik bekannten Steuerelemente verwendet werden. Die Software ist sogar in der Lage, einen plausiblen statischen Videohintergrund synthetisieren, wenn der Kopf bewegt wird.
Hyeongwoo Kim vom Max-Planck-Institut für Informatik erklärt: „Wir arbeiten mit modellbasierten 3D-Gesichtsaufnahmen, um die detaillierten Bewegungen der Augenbrauen, des Mundes, der Nase und der Kopfposition des Synchronsprechers in einem Video aufzuzeichnen. Das System überträgt diese Bewegungen auf den Ziel-Akteur im Film, um die Lippen und Gesichtsbewegungen exakt mit dem neuen Ton zu synchronisieren.“ Die Forschung befindet sich derzeit im *Proof-of-Concept*-Stadium und muss noch in die Praxis umgesetzt werden. Doch sind die Forscher guten Mutes, dass dieser Ansatz Teile der visuellen Unterhaltungsindustrie massiv verändern könnte.
Prof. Christian Theobalt vom Max-Planck-Institut für Informatik sagt: „Trotz umfangreicher Postproduktionsanstrengungen produziert die Synchronierung von Filmen in Fremdsprachen noch immer ein Missverhältnis zwischen dem Schauspieler auf der Leinwand und der synchronisierten Stimme. Unser neuer Ansatz *Deep Video Portraits* ermöglicht es uns, das Aussehen des gezeigten Schauspielers realistisch zu verändern, indem wir Kopfhaltung, Mimik und Augenbewegungen übertragen.“ Dr. Christian Richardt, vom Motion-Capture-Forschungszentrum CAMERA der University of Bath und Co-Autor des Beitrags, fügt hinzu: „Diese Technik könnte auch für die Postproduktion in der Filmindustrie eingesetzt werden, wo die computergrafische Bearbeitung von Gesichtern in den heutigen Spielfilmen bereits weit verbreitet ist.“
Software verändert Gesichtsausdruck eines Schauspielers
Ein hervorragendes Beispiel dafür ist der Film "Der seltsame Fall des Benjamin Button" nach einer Kurzgeschichte von F. Scott Fitzgerald, in dem das Gesicht von Hollywood-Stars Brad Pitt in fast jedem Frame des Films durch eine modifizierte Computergrafikversion ersetzt wurde. Diese Arbeit bleibt ein sehr zeitaufwendiger Prozess, der oft viele Wochen Arbeit von ausgebildeten Künstlern erfordert. „Deep Video Portraits zeigt, wie ein solcher visueller Effekt in Zukunft mit weniger Aufwand erzeugt werden kann. Mit unserem Ansatz können sogar die Platzierung des Kopfes des Schauspielers und sein Gesichtsausdruck problemlos verändert werden, um den Kamerawinkel zu ändern oder den Rahmen einer Szene subtil zu verändern, um die Geschichte besser zu erzählen“, so Dr. Christian Richardt.
Darüber hinaus kann dieser neue Ansatz auch in anderen Anwendungen eingesetzt werden, die die Autoren auf ihrer Projektwebsite zeigen: zum Beispiel in Video- und VR-Telekonferenzen. Dort kann er verwendet werden, um Blick und Kopfhaltung so zu korrigieren, dass eine natürlichere Gesprächssituation erreicht wird. Die Software ermöglicht viele neue kreative Anwendungen in der visuellen Medienproduktion, aber die Autoren sind sich auch über das Missbrauchspotenzials moderner Videobearbeitungstechnologie im Klaren.
Digitale Forensik muss mehr Aufmerksamkeit erhalten
Dr. Michael Zollhöfer vom Computer Science Department der Stanford University erläutert: „Die Medienindustrie hat seit vielen Jahren Fotos mit Bildbearbeitungssoftware nachbearbeitet. Die meisten von uns sind sich dessen bewusst und sehen deshalb publizierte Fotos *cum grano salis*. Mit der ständigen Verbesserung der Videobearbeitungstechnologie müssen wir auch die Videoinhalte, die wir täglich konsumieren, kritischer betrachten, insbesondere wenn es keinen Herkunftsnachweis gibt. Wir glauben, dass der Bereich der digitalen Forensik in Zukunft viel mehr Aufmerksamkeit erhalten sollte und auch erhalten wird, um Ansätze zu entwickeln, die die Authentizität eines Videoclips automatisch nachweisen können. Das wird zu immer besseren Methoden führen, die auch solche Veränderungen aufdecken, die wir Menschen nicht mit eigenen Augen erkennen können.“
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Parallel dazu entwickelt das Forschungsteam mit derselben Technologie neuronale Netze, die darauf trainiert sind, synthetisch erzeugte oder bearbeitete Videos mit hoher Präzision zu detektieren; Fälschungen lassen sich dadurch viel leichter erkennen. Die Autoren haben derzeit nicht vor, die Software öffentlich zugänglich zu machen, sondern erklären, dass jede Software, die solche kreativen Anwendungsfälle implementiert, Wasserzeichen enthalten sollte, um Änderungen klar zu kennzeichnen.