要約
ビデオダビングは、リファレンスビデオと運転音声信号からリアルなリップシンクビデオを合成することを目的としています。
既存の方法は音声によって駆動される口の形状を正確に生成できますが、音声キューと参照アイデンティティの視覚的属性の間の微妙な相互作用を効果的に捕捉できないことが主な理由で、アイデンティティ固有の特徴を保持できないことがよくあります。
その結果、生成された出力は、参照アイデンティティの固有のテクスチャおよび構造の詳細を再現する際の忠実度を欠くことがよくあります。
これらの制限に対処するために、私たちは、リップシンクの精度と高忠実度のアイデンティティ保存の両方を保証しながら、駆動オーディオと参照アイデンティティの間のシームレスな調整を実現するビデオダビング用の斬新で堅牢なフレームワークである IPTalker を提案します。
IPTalker の中核となるのは、オーディオの特徴と参照画像の間の対応を動的にキャプチャしてモデル化するように設計されたトランスベースの調整メカニズムであり、これにより、正確でアイデンティティを意識したオーディオとビジュアルの統合が可能になります。
この調整に基づいて、モーション ワーピング戦略により、ターゲットのオーディオ主導の構成に一致するように参照画像を空間的に変形することで、結果がさらに洗練されます。
その後、専用の精製プロセスにより、オクルージョン アーティファクトが軽減され、口の詳細や肌の特徴などのきめの細かいテクスチャの保存が強化されます。
広範な定性的および定量的評価により、IPTalker はリアリズム、リップシンク、アイデンティティ保持の点で既存のアプローチを常に上回っており、高品質でアイデンティティの一貫したビデオ ダビングの新しい最先端技術を確立していることが実証されています。
要約(オリジナル)
Video dubbing aims to synthesize realistic, lip-synced videos from a reference video and a driving audio signal. Although existing methods can accurately generate mouth shapes driven by audio, they often fail to preserve identity-specific features, largely because they do not effectively capture the nuanced interplay between audio cues and the visual attributes of reference identity . As a result, the generated outputs frequently lack fidelity in reproducing the unique textural and structural details of the reference identity. To address these limitations, we propose IPTalker, a novel and robust framework for video dubbing that achieves seamless alignment between driving audio and reference identity while ensuring both lip-sync accuracy and high-fidelity identity preservation. At the core of IPTalker is a transformer-based alignment mechanism designed to dynamically capture and model the correspondence between audio features and reference images, thereby enabling precise, identity-aware audio-visual integration. Building on this alignment, a motion warping strategy further refines the results by spatially deforming reference images to match the target audio-driven configuration. A dedicated refinement process then mitigates occlusion artifacts and enhances the preservation of fine-grained textures, such as mouth details and skin features. Extensive qualitative and quantitative evaluations demonstrate that IPTalker consistently outperforms existing approaches in terms of realism, lip synchronization, and identity retention, establishing a new state of the art for high-quality, identity-consistent video dubbing.
arxiv情報
著者 | Runzhen Liu,Qinjie Lin,Yunfei Liu,Lijian Lin,Ye Zhu,Yu Li,Chuhua Xian,Fa-Ting Hong |
発行日 | 2025-01-09 15:27:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google