技術共有

[論文閲覧] VASA-1: リアルタイムで生成されるリアルな音声駆動の話し顔

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

全体的な枠組み。ビデオ フレームを直接生成する代わりに、全体的な顔のダイナミクスと頭の動きが、音声やその他の信号に基づいて潜在空間で生成されます。これらのモーション潜在エンコーディングが与えられると、入力画像から抽出された外観および識別特徴も入力として受け入れる顔デコーダを通じてビデオ フレームが生成されます。

顔の潜在空間が構築され、顔のエンコーダとデコーダがトレーニングされます。

私たちは、実際の顔のビデオに基づいた表現力豊かで分離可能な機能を備えた顔潜在学習フレームワークを設計およびトレーニングします。次に、動きの分布をモデル化し、テスト時の音声やその他の条件に基づいて動きの潜在的なエンコードを生成する拡散変換器がトレーニングされます。