2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Gesamtrahmen. Anstatt Videobilder direkt zu erzeugen, werden die gesamte Gesichtsdynamik und Kopfbewegungen im latenten Raum erzeugt, abhängig von Audio- und anderen Signalen. Aufgrund dieser latenten Bewegungskodierungen werden Videobilder durch einen Gesichtsdecoder generiert, der auch aus dem Eingabebild extrahierte Erscheinungs- und Identitätsmerkmale als Eingabe akzeptiert.
Es wird ein latenter Gesichtsraum konstruiert und Gesichtskodierer und -dekodierer trainiert.
Wir entwerfen und trainieren ein Framework zum latenten Lernen von Gesichtern mit ausdrucksstarken und trennbaren Funktionen basierend auf echten Gesichtsvideos. Anschließend wird ein Diffusionstransformator trainiert, der die Bewegungsverteilung modelliert und latente Bewegungskodierungen basierend auf Audio und anderen Bedingungen zum Testzeitpunkt generiert.