Fine-grained Controllable Video Generation via Object Appearance and Context

要約

テキストからビデオへの生成は有望な結果を示しています。
ただし、自然言語のみを入力として使用するため、ユーザーはモデルの出力を正確に制御するための詳細な情報を提供することが困難になることがよくあります。
この研究では、詳細な制御を実現するための細粒度制御可能なビデオ生成 (FACTOR) を提案します。
具体的には、FACTOR は、テキスト プロンプトと組み合わせて、オブジェクトの外観とコンテキスト (位置やカテゴリを含む) を制御することを目的としています。
詳細な制御を実現するために、既存のテキストからビデオへのモデルに制御信号を共同で注入するための統合フレームワークを提案します。
私たちのモデルは、ジョイント エンコーダーと適応クロスアテンション レイヤーで構成されています。
エンコーダーと挿入されたレイヤーを最適化することで、テキスト プロンプトときめ細かいコントロールの両方に合わせたビデオを生成するようにモデルを適応させます。
エッジマップなどの高密度の制御信号に依存する既存の方法と比較して、オブジェクトレベルのきめ細かい制御を可能にする、より直観的でユーザーフレンドリーなインターフェイスを提供します。
私たちの方法では、微調整することなくオブジェクトの外観を制御できるため、ユーザーの被写体ごとの最適化の労力が軽減されます。
標準ベンチマーク データセットとユーザー提供の入力に関する広範な実験により、当社のモデルが競合ベースラインと比較して制御性メトリクスが 70% 向上していることが検証されました。

要約(オリジナル)

Text-to-video generation has shown promising results. However, by taking only natural languages as input, users often face difficulties in providing detailed information to precisely control the model’s output. In this work, we propose fine-grained controllable video generation (FACTOR) to achieve detailed control. Specifically, FACTOR aims to control objects’ appearances and context, including their location and category, in conjunction with the text prompt. To achieve detailed control, we propose a unified framework to jointly inject control signals into the existing text-to-video model. Our model consists of a joint encoder and adaptive cross-attention layers. By optimizing the encoder and the inserted layer, we adapt the model to generate videos that are aligned with both text prompts and fine-grained control. Compared to existing methods relying on dense control signals such as edge maps, we provide a more intuitive and user-friendly interface to allow object-level fine-grained control. Our method achieves controllability of object appearances without finetuning, which reduces the per-subject optimization efforts for the users. Extensive experiments on standard benchmark datasets and user-provided inputs validate that our model obtains a 70% improvement in controllability metrics over competitive baselines.

arxiv情報

著者 Hsin-Ping Huang,Yu-Chuan Su,Deqing Sun,Lu Jiang,Xuhui Jia,Yukun Zhu,Ming-Hsuan Yang
発行日 2023-12-05 17:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク