Soundini: Sound-Guided Diffusion for Natural Video Editing

要約

タイトル: Soundini:自然なビデオ編集のための音声誘導拡散
要約:
– 特定のビデオ領域に音声誘導的な視覚効果をゼロショット設定で追加する方法を提案する。
– 視覚効果のアニメーション化は困難であり、各フレームで視覚的な変化を維持しながら時間的一貫性を保つ必要がある。
– 従来のビデオ編集ソリューションはフレーム間の時間的一貫性に重点を置いており、時間的なスタイルの変化を無視している。
– この制限を克服するために、音声特徴を使用して動的なスタイルを実現する。
– 音声の濃度、音色、音量などの音声に特化した特性を持つさまざまな音源から音声分布性モデルに誘導する。
– さらに、オプティカルフローに基づいたガイダンスを設計して、ピクセル単位で隣接フレーム間の関係をキャプチャする。
– 実験結果は、既存のビデオ編集技術を上回り、音の特性を反映したよりリアルな視覚効果を生成することを示している。

要約(オリジナル)

We propose a method for adding sound-guided visual effects to specific regions of videos with a zero-shot setting. Animating the appearance of the visual effect is challenging because each frame of the edited video should have visual changes while maintaining temporal consistency. Moreover, existing video editing solutions focus on temporal consistency across frames, ignoring the visual style variations over time, e.g., thunderstorm, wave, fire crackling. To overcome this limitation, we utilize temporal sound features for the dynamic style. Specifically, we guide denoising diffusion probabilistic models with an audio latent representation in the audio-visual latent space. To the best of our knowledge, our work is the first to explore sound-guided natural video editing from various sound sources with sound-specialized properties, such as intensity, timbre, and volume. Additionally, we design optical flow-based guidance to generate temporally consistent video frames, capturing the pixel-wise relationship between adjacent frames. Experimental results show that our method outperforms existing video editing techniques, producing more realistic visual effects that reflect the properties of sound. Please visit our page: https://kuai-lab.github.io/soundini-gallery/.

arxiv情報

著者 Seung Hyun Lee,Sieun Kim,Innfarn Yoo,Feng Yang,Donghyeon Cho,Youngseo Kim,Huiwen Chang,Jinkyu Kim,Sangpil Kim
発行日 2023-04-13 20:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク