AudioScenic: Audio-Driven Video Scene Editing

要約

オーディオ駆動のビジュアル シーン編集では、指定されたオーディオ信号に従って、前景のコンテンツを変更せずにビジュアル背景を操作しようとします。
主に画像編集に焦点を当てた現在の取り組みとは異なり、オーディオ主導のビデオ シーン編集には広く取り組んでいません。
このペーパーでは、ビデオ シーン編集用に設計されたオーディオ駆動フレームワークである AudioScenic を紹介します。
AudioScenic は、時間認識オーディオ セマンティクス インジェクション プロセスを通じて、オーディオ セマンティクスをビジュアル シーンに統合します。
バックグラウンド編集に重点を置いているため、編集プロセス中に前景コンテンツの整合性を維持する SceneMasker モジュールをさらに導入します。
AudioScenic は、オーディオの固有の特性、つまりオーディオの大きさと周波数を利用して、時間的なダイナミクスを制御し、時間的な一貫性を高めることを目的として、編集プロセスをガイドします。
まず、音声の大きさの変化に応じてシーンの時間的ダイナミクスを調整し、視覚的なダイナミクスを強化するオーディオ マグニチュード モジュレータ モジュールを紹介します。
次に、オーディオ周波数フューザー モジュールは、オーディオの周波数をビデオ シーンのダイナミクスに合わせることで時間的一貫性を確保するように設計されており、編集されたビデオの全体的な時間的一貫性が向上します。
これらの統合された機能により、AudioScenic は視覚的な多様性を高めるだけでなく、ビデオ全体で時間的な一貫性を維持することもできます。
時間的一貫性をより包括的に検証するために、時間的スコアと呼ばれる新しい指標を提示します。
私たちは、DAVIS および Audioset データセット上で競合するメソッドに比べて AudioScenic が大幅に進歩していることを実証します。

要約(オリジナル)

Audio-driven visual scene editing endeavors to manipulate the visual background while leaving the foreground content unchanged, according to the given audio signals. Unlike current efforts focusing primarily on image editing, audio-driven video scene editing has not been extensively addressed. In this paper, we introduce AudioScenic, an audio-driven framework designed for video scene editing. AudioScenic integrates audio semantics into the visual scene through a temporal-aware audio semantic injection process. As our focus is on background editing, we further introduce a SceneMasker module, which maintains the integrity of the foreground content during the editing process. AudioScenic exploits the inherent properties of audio, namely, audio magnitude and frequency, to guide the editing process, aiming to control the temporal dynamics and enhance the temporal consistency. First, we present an audio Magnitude Modulator module that adjusts the temporal dynamics of the scene in response to changes in audio magnitude, enhancing the visual dynamics. Second, the audio Frequency Fuser module is designed to ensure temporal consistency by aligning the frequency of the audio with the dynamics of the video scenes, thus improving the overall temporal coherence of the edited videos. These integrated features enable AudioScenic to not only enhance visual diversity but also maintain temporal consistency throughout the video. We present a new metric named temporal score for more comprehensive validation of temporal consistency. We demonstrate substantial advancements of AudioScenic over competing methods on DAVIS and Audioset datasets.

arxiv情報

著者 Kaixin Shen,Ruijie Quan,Linchao Zhu,Jun Xiao,Yi Yang
発行日 2024-04-25 12:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク