Mi informacion de contacto
Correo[email protected]
2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
marco general. En lugar de generar fotogramas de vídeo directamente, la dinámica facial general y los movimientos de la cabeza se generan en un espacio latente, condicionado al audio y otras señales. Dadas estas codificaciones latentes de movimiento, los cuadros de video se generan a través de un decodificador de rostros que también acepta como entrada características de apariencia e identidad extraídas de la imagen de entrada.
Se construye un espacio latente de rostros y se entrenan codificadores y decodificadores de rostros.
Diseñamos y entrenamos un marco de aprendizaje facial latente con características expresivas y separables basado en videos de rostros reales. Luego, se entrena un transformador de difusión que modela la distribución del movimiento y genera codificaciones latentes de movimiento basadas en el audio y otras condiciones en el momento de la prueba.