Contrastive Sequential-Diffusion Learning: An approach to Multi-Scene Instructional Video Synthesis

要約

レシピの説明や日曜大工プロジェクトなどのアクション中心のシーケンス記述には、次のステップが直前のステップではなく、前のステップと視覚的に一貫している必要がある非線形パターンが含まれます。
現在のビデオ合成アプローチでは、そのようなタスクの説明に対して一貫したマルチシーン ビデオを生成できません。
我々は、次のシーンのノイズ除去プロセスをガイドおよび調整するために、以前に生成された最も適切なシーンを選択する、対照的シーケンシャルビデオ拡散法を提案します。
その結果、シーンの説明に基づいており、一貫した視覚化が必要なシーンに関して一貫したマルチシーン ビデオが作成されます。
実世界のデータを使用した実験では、以前の研究と比較してモデルの実用性と一貫性の向上が実証されました。

要約(オリジナル)

Action-centric sequence descriptions like recipe instructions and do-it-yourself projects include non-linear patterns in which the next step may require to be visually consistent not on the immediate previous step but on earlier steps. Current video synthesis approaches fail to generate consistent multi-scene videos for such task descriptions. We propose a contrastive sequential video diffusion method that selects the most suitable previously generated scene to guide and condition the denoising process of the next scene. The result is a multi-scene video that is grounded in the scene descriptions and coherent w.r.t the scenes that require consistent visualisation. Our experiments with real-world data demonstrate the practicality and improved consistency of our model compared to prior work.

arxiv情報

著者 Vasco Ramos,Yonatan Bitton,Michal Yarom,Idan Szpektor,Joao Magalhaes
発行日 2024-07-16 15:03:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク