UniSync: A Unified Framework for Audio-Visual Synchronization

要約

スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠です。
既存の方法は、ルールベースのアプローチとエンドツーエンドの学習技術を通じて、この課題に対処する上で大きな進歩を遂げました。
ただし、これらの方法はしばしば、限られた視聴覚表現と最適ではない学習戦略に依存しており、より複雑なシナリオでの有効性を制約する可能性があります。
これらの制限に対処するために、埋め込みの類似性を使用して視聴覚同期を評価するための新しいアプローチであるUnisyncを提示します。
Unisyncは、さまざまなオーディオ表現(メルスペクトログラム、ヒューバート)と視覚表現(RGB画像、フェイス解析マップ、フェイシャルランドマーク、3DMM)との幅広い互換性を提供し、有意な次元の違いを効果的に処理します。
マージンベースの損失コンポーネントとクロススピーカーの非物語のペアを使用して、対照的な学習フレームワークを強化し、差別的能力を​​改善します。
Unisyncは、標準のデータセット上の既存のメソッドを上回り、多様なオーディオビジュアル表現全体で汎用性を示しています。
トーキングフェイスジェネレーションフレームワークへの統合により、自然とAIが生成されたコンテンツの両方で同期品質が向上します。

要約(オリジナル)

Precise audio-visual synchronization in speech videos is crucial for content quality and viewer comprehension. Existing methods have made significant strides in addressing this challenge through rule-based approaches and end-to-end learning techniques. However, these methods often rely on limited audio-visual representations and suboptimal learning strategies, potentially constraining their effectiveness in more complex scenarios. To address these limitations, we present UniSync, a novel approach for evaluating audio-visual synchronization using embedding similarities. UniSync offers broad compatibility with various audio representations (e.g., Mel spectrograms, HuBERT) and visual representations (e.g., RGB images, face parsing maps, facial landmarks, 3DMM), effectively handling their significant dimensional differences. We enhance the contrastive learning framework with a margin-based loss component and cross-speaker unsynchronized pairs, improving discriminative capabilities. UniSync outperforms existing methods on standard datasets and demonstrates versatility across diverse audio-visual representations. Its integration into talking face generation frameworks enhances synchronization quality in both natural and AI-generated content.

arxiv情報

著者 Tao Feng,Yifan Xie,Xun Guan,Jiyuan Song,Zhou Liu,Fei Ma,Fei Yu
発行日 2025-03-20 17:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク