[Ανάγνωση χαρτιού] VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

[Ανάγνωση Χαρτιού] VASA-1: Ζωντανά ομιλούντα πρόσωπα που δημιουργούνται από τον ήχο σε πραγματικό χρόνο

2024-07-11

γενικό πλαίσιο. Αντί να δημιουργούνται απευθείας καρέ βίντεο, η συνολική δυναμική του προσώπου και οι κινήσεις του κεφαλιού δημιουργούνται σε λανθάνον χώρο, που εξαρτώνται από ηχητικά και άλλα σήματα. Δεδομένων αυτών των κωδικοποιήσεων λανθάνουσας κίνησης, τα καρέ βίντεο δημιουργούνται μέσω ενός αποκωδικοποιητή προσώπου που δέχεται επίσης ως είσοδο χαρακτηριστικά εμφάνισης και ταυτότητας που εξάγονται από την εικόνα εισόδου.

Κατασκευάζεται ένας λανθάνον χώρος προσώπου και εκπαιδεύονται κωδικοποιητές προσώπου και αποκωδικοποιητές.

Σχεδιάζουμε και εκπαιδεύουμε ένα πλαίσιο λανθάνουσας εκμάθησης προσώπου με εκφραστικά και διαχωρίσιμα χαρακτηριστικά βασισμένα σε βίντεο πραγματικών προσώπων. Στη συνέχεια, εκπαιδεύεται ένας μετασχηματιστής διάχυσης που μοντελοποιεί την κατανομή της κίνησης και δημιουργεί λανθάνουσες κωδικοποιήσεις κίνησης με βάση τον ήχο και άλλες συνθήκες κατά το χρόνο δοκιμής.

Κοινή χρήση τεχνολογίας

[Ανάγνωση Χαρτιού] VASA-1: Ζωντανά ομιλούντα πρόσωπα που δημιουργούνται από τον ήχο σε πραγματικό χρόνο

Προσωπικό προφίλ

τα στοιχεία επικοινωνίας μου