VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models

要約

拡散モデルは、画像とビデオの生成において大きな成功を収めています。
これにより、提供されたテキストの説明に従ってビデオを編集するビデオ編集タスクへの関心が高まっています。
ただし、既存のアプローチのほとんどは、短いクリップのビデオ編集のみに焦点を当てており、時間のかかる調整や推論に依存しています。
私たちは、幅広いビデオ タスク向けに設計された統合基盤モデルである Video Instruction Diffusion (VIDiff) を最初に提案しました。
これらのタスクには、理解タスク (言語ガイド付きのビデオ オブジェクトのセグメンテーションなど) と生成タスク (ビデオの編集と強化) の両方が含まれます。
私たちのモデルは、ユーザーの指示に基づいて数秒以内に目的の結果を編集および翻訳できます。
さらに、長いビデオの編集と強化における一貫性を確保するために、反復的な自動回帰手法を設計しています。
多様な入力ビデオや書面による指示に対して、定性的にも量的にも説得力のある生成結果を提供します。
その他の例は、当社の Web サイト https://ChenHsing.github.io/VIDiff でご覧いただけます。

要約(オリジナル)

Diffusion models have achieved significant success in image and video generation. This motivates a growing interest in video editing tasks, where videos are edited according to provided text descriptions. However, most existing approaches only focus on video editing for short clips and rely on time-consuming tuning or inference. We are the first to propose Video Instruction Diffusion (VIDiff), a unified foundation model designed for a wide range of video tasks. These tasks encompass both understanding tasks (such as language-guided video object segmentation) and generative tasks (video editing and enhancement). Our model can edit and translate the desired results within seconds based on user instructions. Moreover, we design an iterative auto-regressive method to ensure consistency in editing and enhancing long videos. We provide convincing generative results for diverse input videos and written instructions, both qualitatively and quantitatively. More examples can be found at our website https://ChenHsing.github.io/VIDiff.

arxiv情報

著者 Zhen Xing,Qi Dai,Zihao Zhang,Hui Zhang,Han Hu,Zuxuan Wu,Yu-Gang Jiang
発行日 2023-11-30 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク