Compartir tecnología

[Lectura del artículo] VASA-1: Caras parlantes realistas impulsadas por audio generadas en tiempo real

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

marco general. En lugar de generar fotogramas de vídeo directamente, la dinámica facial general y los movimientos de la cabeza se generan en un espacio latente, condicionado al audio y otras señales. Dadas estas codificaciones latentes de movimiento, los cuadros de video se generan a través de un decodificador de rostros que también acepta como entrada características de apariencia e identidad extraídas de la imagen de entrada.

Se construye un espacio latente de rostros y se entrenan codificadores y decodificadores de rostros.

Diseñamos y entrenamos un marco de aprendizaje facial latente con características expresivas y separables basado en videos de rostros reales. Luego, se entrena un transformador de difusión que modela la distribución del movimiento y genera codificaciones latentes de movimiento basadas en el audio y otras condiciones en el momento de la prueba.