要約
シーケンシャルな意思決定は、テキスト条件付けのビデオ生成問題として定式化できます。ここで、テキスト定義の目標に導かれたビデオプランナーが、制御アクションがその後導出される計画的アクションを視覚化する将来のフレームを生成します。
この作業では、アクティブな領域の生成、つまり潜在的な相互作用領域を強調するビデオベースのポリシー学習のための新しいフレームワークであるユニバーサルポリシー(Ardup)のアクティブな領域ビデオ拡散を紹介し、タスクに重要なインタラクティブな領域に対する条件付きポリシーの焦点を強化します。
実行。
この革新的なフレームワークは、アクティブな領域コンディショニングをビデオ計画の潜在的な拡散モデルと統合し、逆動的モデリング中に直接アクションデコードに潜在的な表現を採用しています。
自動アクティブな領域発見のためにビデオでモーションキューを利用することにより、この方法はアクティブ領域の手動注釈の必要性を排除します。
シミュレータークリポートと実際のデータセットBridgedata V2に関する広範な実験を通じてArdupの有効性を検証し、成功率の顕著な改善を達成し、説得力のある現実的なビデオ計画を生み出します。
要約(オリジナル)
Sequential decision-making can be formulated as a text-conditioned video generation problem, where a video planner, guided by a text-defined goal, generates future frames visualizing planned actions, from which control actions are subsequently derived. In this work, we introduce Active Region Video Diffusion for Universal Policies (ARDuP), a novel framework for video-based policy learning that emphasizes the generation of active regions, i.e. potential interaction areas, enhancing the conditional policy’s focus on interactive areas critical for task execution. This innovative framework integrates active region conditioning with latent diffusion models for video planning and employs latent representations for direct action decoding during inverse dynamic modeling. By utilizing motion cues in videos for automatic active region discovery, our method eliminates the need for manual annotations of active regions. We validate ARDuP’s efficacy via extensive experiments on simulator CLIPort and the real-world dataset BridgeData v2, achieving notable improvements in success rates and generating convincingly realistic video plans.
arxiv情報
著者 | Shuaiyi Huang,Mara Levy,Zhenyu Jiang,Anima Anandkumar,Yuke Zhu,Linxi Fan,De-An Huang,Abhinav Shrivastava |
発行日 | 2025-01-30 03:40:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google