Compartilhamento de tecnologia

[Leitura de artigo] VASA-1: rostos falantes realistas com áudio gerados em tempo real

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

quadro geral. Em vez de gerar quadros de vídeo diretamente, a dinâmica facial geral e os movimentos da cabeça são gerados no espaço latente, condicionados ao áudio e outros sinais. Dadas essas codificações de movimento latente, os quadros de vídeo são gerados através de um decodificador de face que também aceita como entrada características de aparência e identidade extraídas da imagem de entrada.

Um espaço latente facial é construído e codificadores e decodificadores faciais são treinados.

Projetamos e treinamos uma estrutura de aprendizagem facial latente com recursos expressivos e separáveis ​​baseados em vídeos reais. Em seguida, um transformador de difusão é treinado para modelar a distribuição de movimento e gerar codificações latentes de movimento com base no áudio e outras condições no momento do teste.