Condivisione della tecnologia

[Lettura del documento] VASA-1: Volti parlanti realistici guidati da audio generati in tempo reale

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

quadro generale. Invece di generare direttamente fotogrammi video, le dinamiche facciali complessive e i movimenti della testa vengono generati nello spazio latente, condizionati dall’audio e da altri segnali. Date queste codifiche latenti del movimento, i fotogrammi video vengono generati attraverso un decodificatore facciale che accetta anche come input l'aspetto e le caratteristiche di identità estratte dall'immagine di input.

Viene costruito uno spazio latente del volto e vengono addestrati codificatori e decodificatori del volto.

Progettiamo e formiamo un framework di apprendimento latente del volto con caratteristiche espressive e separabili basate su video di volti reali. Quindi, viene addestrato un trasformatore di diffusione che modella la distribuzione del movimento e genera codifiche latenti del movimento basate sull'audio e su altre condizioni al momento del test.