要約
最近のビデオ拡散モデルはビデオ編集を強化していますが、統一されたフレームワーク内で教育編集と多様なタスク(たとえば、追加、削除、変更)を処理することは困難なままです。
このペーパーでは、Viggieを紹介するVeggieを紹介します。これは、さまざまなユーザーの命令に基づいて、ビデオコンセプトの編集、接地、および推論を統一するシンプルなエンドツーエンドのフレームワークである、手順からグラウンドジェネレーションのビデオエディターを紹介します。
具体的には、ビデオとテキストのクエリを指定して、Veggieは最初にMLLMを使用してユーザーの意図を命令で解釈し、ビデオコンテキストに接地し、ピクセルスペース応答のフレーム固有の接地タスククエリを生成します。
拡散モデルは、これらの計画をレンダリングし、ユーザーの意図と一致する編集されたビデオを生成します。
多様なタスクと複雑な指示をサポートするために、カリキュラム学習戦略を採用しています。まず、MLLMおよびビデオ拡散モデルを大規模な指導画像編集データに合わせて、その後、高品質のマルチタスクビデオデータにエンドツーエンドの微調整を行います。
さらに、新しいデータ合成パイプラインを導入して、モデルトレーニングのペアリングされた教育ビデオ編集データを生成します。
静的画像データを、画像間モデルを活用してダイナミクスを注入することにより、多様で高品質のビデオ編集サンプルに変換します。
Veggieは、さまざまな編集スキルを備えた教育ビデオ編集で強力なパフォーマンスを示し、多用途のモデルとして最高の教育ベースラインを上回り、他のモデルはマルチタスクに苦労しています。
Veggieは、他のベースラインが失敗するビデオオブジェクトの接地と推論セグメンテーションにも優れています。
さらに、複数のタスクがどのように互いに役立つかを明らかにし、ゼロショットマルチモーダル教育やコンテキスト内のビデオ編集などの有望なアプリケーションを強調します。
要約(オリジナル)
Recent video diffusion models have enhanced video editing, but it remains challenging to handle instructional editing and diverse tasks (e.g., adding, removing, changing) within a unified framework. In this paper, we introduce VEGGIE, a Video Editor with Grounded Generation from Instructions, a simple end-to-end framework that unifies video concept editing, grounding, and reasoning based on diverse user instructions. Specifically, given a video and text query, VEGGIE first utilizes an MLLM to interpret user intentions in instructions and ground them to the video contexts, generating frame-specific grounded task queries for pixel-space responses. A diffusion model then renders these plans and generates edited videos that align with user intent. To support diverse tasks and complex instructions, we employ a curriculum learning strategy: first aligning the MLLM and video diffusion model with large-scale instructional image editing data, followed by end-to-end fine-tuning on high-quality multitask video data. Additionally, we introduce a novel data synthesis pipeline to generate paired instructional video editing data for model training. It transforms static image data into diverse, high-quality video editing samples by leveraging Image-to-Video models to inject dynamics. VEGGIE shows strong performance in instructional video editing with different editing skills, outperforming the best instructional baseline as a versatile model, while other models struggle with multi-tasking. VEGGIE also excels in video object grounding and reasoning segmentation, where other baselines fail. We further reveal how the multiple tasks help each other and highlight promising applications like zero-shot multimodal instructional and in-context video editing.
arxiv情報
著者 | Shoubin Yu,Difan Liu,Ziqiao Ma,Yicong Hong,Yang Zhou,Hao Tan,Joyce Chai,Mohit Bansal |
発行日 | 2025-03-18 15:31:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google