VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

要約

最近のテキストからビデオへの (T2V) 普及モデルは、さまざまなドメインにわたって優れた生成機能を実証しています。
ただし、これらのモデルでは、特にプロンプ​​トが複数のオブジェクトや属性を含む複雑なシーンを説明している場合、テキスト プロンプトと不整合のあるビデオが生成されることがよくあります。
これに対処するために、モデルに依存せず、トレーニング不要の新しいビデオ調整フレームワークである VideoRepair を導入します。これは、テキストとビデオの細かな位置ずれを自動的に識別し、明示的な空間およびテキストのフィードバックを生成し、T2V 拡散モデルがターゲットを絞った局所的な調整を実行できるようにします。
VideoRepair は 4 つの段階で構成されます。 (1) ビデオ評価では、きめの細かい評価質問を生成し、MLLM でそれらの質問に答えることで位置ずれを検出します。
(2) 調整計画では、正確に生成されたオブジェクトを特定し、ビデオ内の他の領域を調整するためのローカライズされたプロンプトを作成します。
次に、(3) 領域分解では、結合された接地モジュールを使用して、正しく生成された領域をセグメント化します。
(4) 局所的リファインメントでは、正しい領域を維持しながら、ずれた領域を調整することでビデオを再生成します。
2 つの一般的なビデオ生成ベンチマーク (EvalCrafter と T2V-CompBench) では、VideoRepair はさまざまなテキストとビデオの配置メトリクスにわたって最近のベースラインを大幅に上回っています。
VideoRepair コンポーネントの包括的な分析と定性的な例を提供します。

要約(オリジナル)

Recent text-to-video (T2V) diffusion models have demonstrated impressive generation capabilities across various domains. However, these models often generate videos that have misalignments with text prompts, especially when the prompts describe complex scenes with multiple objects and attributes. To address this, we introduce VideoRepair, a novel model-agnostic, training-free video refinement framework that automatically identifies fine-grained text-video misalignments and generates explicit spatial and textual feedback, enabling a T2V diffusion model to perform targeted, localized refinements. VideoRepair consists of four stages: In (1) video evaluation, we detect misalignments by generating fine-grained evaluation questions and answering those questions with MLLM. In (2) refinement planning, we identify accurately generated objects and then create localized prompts to refine other areas in the video. Next, in (3) region decomposition, we segment the correctly generated area using a combined grounding module. We regenerate the video by adjusting the misaligned regions while preserving the correct regions in (4) localized refinement. On two popular video generation benchmarks (EvalCrafter and T2V-CompBench), VideoRepair substantially outperforms recent baselines across various text-video alignment metrics. We provide a comprehensive analysis of VideoRepair components and qualitative examples.

arxiv情報

著者 Daeun Lee,Jaehong Yoon,Jaemin Cho,Mohit Bansal
発行日 2024-11-22 18:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク