Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

要約

タイトル:音声条件付き拡散モデルによる音声駆動のビデオ編集

要約:

– ビジュアルジェネレーションタスクでの最近の拡散モデルの発展からインスピレーションを得て、私たちはノイズ除去拡散モデルを使用したエンドツーエンドの音声駆動のビデオ編集法を提案します。
– しゃべる人のビデオと、別の音声録音を与えられた場合、唇や顎の動きを、顔のランドマークや3D顔モデルなどの中間構造表現に依存せずに再同期する方法を提供します。
– メルスペクトル特徴を持つオーディオに依存したノイズ除去拡散モデルを調整することにより、同期された顔の動きを生成することが可能であることを示します。
– CREMA-D音声ビジュアルデータセットを使用して、単一話者および複数話者のビデオ編集で概念実証結果を示し、基準モデルを提供します。
– 私たちの知る限りでは、音声駆動のビデオ編集のためのエンドツーエンドのノイズ除去拡散モデルを適用することの実現可能性を実証し、検証する初めての研究です。

要約(オリジナル)

Taking inspiration from recent developments in visual generative tasks using diffusion models, we propose a method for end-to-end speech-driven video editing using a denoising diffusion model. Given a video of a talking person, and a separate auditory speech recording, the lip and jaw motions are re-synchronized without relying on intermediate structural representations such as facial landmarks or a 3D face model. We show this is possible by conditioning a denoising diffusion model on audio mel spectral features to generate synchronised facial motion. Proof of concept results are demonstrated on both single-speaker and multi-speaker video editing, providing a baseline model on the CREMA-D audiovisual data set. To the best of our knowledge, this is the first work to demonstrate and validate the feasibility of applying end-to-end denoising diffusion models to the task of audio-driven video editing.

arxiv情報

著者 Dan Bigioi,Shubhajit Basak,Michał Stypułkowski,Maciej Zięba,Hugh Jordan,Rachel McDonnell,Peter Corcoran
発行日 2023-05-11 11:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク