Обмен технологиями

[Чтение статьи] VASA-1: реалистичные говорящие лица, управляемые звуком, генерируемые в реальном времени

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

общая основа. Вместо прямой генерации видеокадров общая динамика лица и движения головы генерируются в скрытом пространстве, обусловленном звуковыми и другими сигналами. С учетом этих скрытых кодировок движения видеокадры генерируются с помощью декодера лица, который также принимает в качестве входных данных характеристики внешнего вида и идентичности, извлеченные из входного изображения.

Создается скрытое пространство лица и обучаются кодировщики и декодеры лица.

Мы разрабатываем и обучаем систему скрытого обучения лиц с выразительными и разделяемыми функциями на основе видеороликов с реальными лицами. Затем обучается диффузионный преобразователь, который моделирует распределение движения и генерирует скрытые кодировки движения на основе звука и других условий во время тестирования.