le mie informazioni di contatto
Posta[email protected]
2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
quadro generale. Invece di generare direttamente fotogrammi video, le dinamiche facciali complessive e i movimenti della testa vengono generati nello spazio latente, condizionati dall’audio e da altri segnali. Date queste codifiche latenti del movimento, i fotogrammi video vengono generati attraverso un decodificatore facciale che accetta anche come input l'aspetto e le caratteristiche di identità estratte dall'immagine di input.
Viene costruito uno spazio latente del volto e vengono addestrati codificatori e decodificatori del volto.
Progettiamo e formiamo un framework di apprendimento latente del volto con caratteristiche espressive e separabili basate su video di volti reali. Quindi, viene addestrato un trasformatore di diffusione che modella la distribuzione del movimento e genera codifiche latenti del movimento basate sull'audio e su altre condizioni al momento del test.