AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

要約

テキストガイド付きビデオ予測 (TVP) には、指示に従って最初のフレームから将来のフレームの動きを予測することが含まれており、仮想現実、ロボティクス、およびコンテンツ作成に幅広い用途があります。
以前の TVP 手法は、このタスクに安定拡散を適用することで大きな進歩を遂げました。
ただし、主にビデオ データセットの規模が限られているために、フレームの一貫性と時間的安定性に苦労しています。
事前トレーニング済みの Image2Video 拡散モデルにはビデオ ダイナミクスに関する良好な事前分布があるものの、テキスト制御が欠けていることが観察されます。
したがって、Image2Video モデルを転送してビデオの動的事前分布を活用しながら、命令制御を注入して制御可能なビデオを生成することは、有意義かつ困難な作業です。
これを達成するために、初期フレームとテキスト命令に基づいて将来のビデオ状態を予測するマルチモーダル大規模言語モデル (MLLM) を導入します。
より具体的には、将来のフレーム予測のために命令とフレームを条件付き埋め込みに統合するデュアル クエリ トランスフォーマー (DQFormer) アーキテクチャを設計します。
さらに、最小限のトレーニング コストで一般的なビデオ拡散モデルを特定のシナリオに迅速に転送できる長期-短期時間アダプターと空間アダプターを開発します。
実験結果は、私たちの手法が、Something Something V2、Epic Kitchen-100、Bridge Data、UCF-101 の 4 つのデータセットで最先端の手法よりも大幅に優れていることを示しています。
特に、AID は Bridge と SSv2 でそれぞれ 91.2% と 55.5% の FVD 改善を達成し、さまざまなドメインでの有効性を実証しています。
その他の例は、当社の Web サイト https://chenhsing.github.io/AID でご覧いただけます。

要約(オリジナル)

Text-guided video prediction (TVP) involves predicting the motion of future frames from the initial frame according to an instruction, which has wide applications in virtual reality, robotics, and content creation. Previous TVP methods make significant breakthroughs by adapting Stable Diffusion for this task. However, they struggle with frame consistency and temporal stability primarily due to the limited scale of video datasets. We observe that pretrained Image2Video diffusion models possess good priors for video dynamics but they lack textual control. Hence, transferring Image2Video models to leverage their video dynamic priors while injecting instruction control to generate controllable videos is both a meaningful and challenging task. To achieve this, we introduce the Multi-Modal Large Language Model (MLLM) to predict future video states based on initial frames and text instructions. More specifically, we design a dual query transformer (DQFormer) architecture, which integrates the instructions and frames into the conditional embeddings for future frame prediction. Additionally, we develop Long-Short Term Temporal Adapters and Spatial Adapters that can quickly transfer general video diffusion models to specific scenarios with minimal training costs. Experimental results show that our method significantly outperforms state-of-the-art techniques on four datasets: Something Something V2, Epic Kitchen-100, Bridge Data, and UCF-101. Notably, AID achieves 91.2% and 55.5% FVD improvements on Bridge and SSv2 respectively, demonstrating its effectiveness in various domains. More examples can be found at our website https://chenhsing.github.io/AID.

arxiv情報

著者 Zhen Xing,Qi Dai,Zejia Weng,Zuxuan Wu,Yu-Gang Jiang
発行日 2024-06-10 17:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク