Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

要約

このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追加のモデルトレーニングなしで指定されたテキストプロンプトと整合するためにオリジナルのオーディオビジュアルコンテンツを変換する必要がある新しいタスクです。
このタスクを評価するために、ゼロショットオーディオビデオ編集のために明示的に設計されたベンチマークデータセットであるベンチベンチをキュレートします。
Aved-Benchには110のビデオが含まれており、それぞれがVggsoundから11のカテゴリにまたがる10秒間の期間があります。
聴覚要素と視覚要素の間の正確なアライメントを必要とする多様なプロンプトとシナリオを提供し、堅牢な評価を可能にします。
既存のゼロショットオーディオおよびビデオ編集方法、特に同期とモダリティ間の一貫性の制限を特定します。
これらの課題に対処するために、オーディオビデオインタラクションを活用して同期されたコヒーレントな編集を実現するゼロショットクロスモーダルデルタ除去フレームワークであるAvedを提案します。
Avedは、Aved-Benchと最近のOaveデータセットの両方で優れた結果を示し、その一般化機能を検証します。
結果はhttps://genjib.github.io/project_page/aved/index.htmlで入手できます

要約(オリジナル)

In this paper, we introduce zero-shot audio-video editing, a novel task that requires transforming original audio-visual content to align with a specified textual prompt without additional model training. To evaluate this task, we curate a benchmark dataset, AvED-Bench, designed explicitly for zero-shot audio-video editing. AvED-Bench includes 110 videos, each with a 10-second duration, spanning 11 categories from VGGSound. It offers diverse prompts and scenarios that require precise alignment between auditory and visual elements, enabling robust evaluation. We identify limitations in existing zero-shot audio and video editing methods, particularly in synchronization and coherence between modalities, which often result in inconsistent outcomes. To address these challenges, we propose AvED, a zero-shot cross-modal delta denoising framework that leverages audio-video interactions to achieve synchronized and coherent edits. AvED demonstrates superior results on both AvED-Bench and the recent OAVE dataset to validate its generalization capabilities. Results are available at https://genjib.github.io/project_page/AVED/index.html

arxiv情報

著者 Yan-Bo Lin,Kevin Lin,Zhengyuan Yang,Linjie Li,Jianfeng Wang,Chung-Ching Lin,Xiaofei Wang,Gedas Bertasius,Lijuan Wang
発行日 2025-03-26 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク