Partage de technologie

[Lecture papier] VASA-1 : visages parlants réalistes pilotés par audio, générés en temps réel

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

cadre global. Au lieu de générer directement des images vidéo, la dynamique globale du visage et les mouvements de la tête sont générés dans un espace latent, conditionnés par des signaux audio et autres. Compte tenu de ces codages de mouvement latent, les images vidéo sont générées via un décodeur de visage qui accepte également en entrée les caractéristiques d'apparence et d'identité extraites de l'image d'entrée.

Un espace latent de visage est construit et des encodeurs et décodeurs de visage sont formés.

Nous concevons et formons un cadre d'apprentissage latent du visage avec des fonctionnalités expressives et séparables basées sur des vidéos de visages réels. Ensuite, un transformateur de diffusion est formé pour modéliser la distribution de mouvement et générer des codages latents de mouvement basés sur l'audio et d'autres conditions au moment du test.