Boximator: Generating Rich and Controllable Motions for Video Synthesis

要約

豊かで制御可能なモーションを生成することは、映像合成における極めて重要な課題である。我々は、きめ細かいモーション制御のための新しいアプローチであるBoximatorを提案する。Boximatorは、ハードボックスとソフトボックスという2つの制約タイプを導入している。ユーザは、ハードボックスを使って条件フレーム内のオブジェクトを選択し、いずれかのタイプのボックスを使って、将来のフレームにおけるオブジェクトの位置、形状、または動きの経路を大まかに、または厳密に定義する。Boximatorは既存の映像拡散モデルのプラグインとして機能する。Boximatorの学習プロセスは、元の重みを凍結し、制御モジュールのみを学習することで、ベースモデルの知識を保持する。学習の課題に対処するため、ボックスとオブジェクトの相関の学習を大幅に単純化する、新しい自己追跡技術を導入する。経験的に、Boximatorは、2つの基本モデルを改善し、ボックス制約を組み込んだ後にさらに強化された、最先端のビデオ品質(FVD)スコアを達成する。そのロバストなモーション制御性は、バウンディングボックスのアライメントメトリックの劇的な増加によって検証される。人間による評価でも、ユーザは基本モデルよりもBoximator生成結果を好むことが示されている。

要約(オリジナル)

Generating rich and controllable motion is a pivotal challenge in video synthesis. We propose Boximator, a new approach for fine-grained motion control. Boximator introduces two constraint types: hard box and soft box. Users select objects in the conditional frame using hard boxes and then use either type of boxes to roughly or rigorously define the object’s position, shape, or motion path in future frames. Boximator functions as a plug-in for existing video diffusion models. Its training process preserves the base model’s knowledge by freezing the original weights and training only the control module. To address training challenges, we introduce a novel self-tracking technique that greatly simplifies the learning of box-object correlations. Empirically, Boximator achieves state-of-the-art video quality (FVD) scores, improving on two base models, and further enhanced after incorporating box constraints. Its robust motion controllability is validated by drastic increases in the bounding box alignment metric. Human evaluation also shows that users favor Boximator generation results over the base model.

arxiv情報

著者 Jiawei Wang,Yuchen Zhang,Jiaxin Zou,Yan Zeng,Guoqiang Wei,Liping Yuan,Hang Li
発行日 2024-02-02 16:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク