Target-Aware Video Diffusion Models

要約

ターゲットが認識しているビデオ拡散モデルを提示します。これは、俳優が目的のアクションを実行しながら、アクターが指定されたターゲットと対話する入力画像からビデオを生成します。
ターゲットはセグメンテーションマスクによって定義され、目的のアクションはテキストプロンプトを介して説明されます。
既存の制御可能な画像からビデオ間拡散モデルとは異なり、俳優の動きをターゲットに導くために密な構造またはモーションの手がかりに依存することが多いとは異なり、ターゲット認識モデルでは、ターゲットを示すための単純なマスクのみが必要であり、事前に擁護されたモデルの一般化能力を活用して妥当なアクションを生成します。
これにより、私たちの方法は、正確なアクションガイダンスを提供することが困難であり、ロボットなどのアプリケーションでの高レベルのアクションプランニングにビデオ拡散モデルを使用できるようになり、ヒューマンオブジェクトインタラクション(HOI)シナリオに特に効果的になります。
ターゲットマスクを追加の入力として組み込むためにベースラインモデルを拡張することにより、ターゲット認識モデルを構築します。
ターゲットの認識を実施するために、テキストプロンプト内のターゲットの空間情報をコードする特別なトークンを導入します。
次に、このトークンに関連付けられたクロスアテンションマップを入力ターゲットマスクに合わせる新しいクロスアテンション損失を使用して、キュレーションされたデータセットでモデルを微調整します。
パフォーマンスをさらに向上させるために、この損失を最も意味的に関連する変圧器ブロックと注意領域に選択的に適用します。
実験結果は、ターゲット認識モデルが、俳優が指定されたターゲットと正確に対話するビデオを生成する際に既存のソリューションを上回ることを示しています。
さらに、ビデオコンテンツの作成とゼロショット3D HOIモーション合成という2つのダウンストリームアプリケーションでその有効性を示します。

要約(オリジナル)

We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor’s movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target’s spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

arxiv情報

著者 Taeksoo Kim,Hanbyul Joo
発行日 2025-04-02 14:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク