Grounding Video Models to Actions through Goal Conditioned Exploration

要約

大量のインターネット ビデオで事前トレーニングされた大規模なビデオ モデルは、オブジェクトやタスクのダイナミクスと動きに関する物理的な知識の豊富な情報源を提供します。
ただし、ビデオ モデルはエージェントの具体化に基づいておらず、ビデオに描かれている視覚的状態に到達するために世界をどのように作動させるかについては記述されていません。
この問題に取り組むために、現在の方法は、実施形態固有のデータに基づいて訓練された別個のビジョンベースの逆動的モデルを使用して、画像状態を動作にマッピングする。
このようなモデルをトレーニングするためのデータ収集は、多くの場合費用がかかり、困難であり、このモデルは、データが利用可能なものと同様の視覚設定に限定されます。
この論文では、生成されたビデオの状態を探索の視覚的な目標として使用し、具体化された環境での自己探索を通じて、ビデオ モデルを継続的なアクションに直接接地する方法を調査します。
我々は、軌跡レベルのアクション生成とビデオガイダンスを組み合わせて使用​​し、エージェントが報酬、アクションラベル、セグメンテーションマスクなどの外部監督なしで複雑なタスクを解決できるようにするフレームワークを提案します。
Libero の 8 つのタスク、MetaWorld の 6 つのタスク、Calvin の 4 つのタスク、および iThor Visual Navigation の 12 タスクについて、提案されたアプローチを検証します。
私たちのアプローチが、アクションの注釈を必要とせずに、専門家のデモンストレーションでトレーニングされた複数の動作クローン作成ベースラインと同等、またはそれを超えていることを示します。

要約(オリジナル)

Large video models, pretrained on massive amounts of Internet video, provide a rich source of physical knowledge about the dynamics and motions of objects and tasks. However, video models are not grounded in the embodiment of an agent, and do not describe how to actuate the world to reach the visual states depicted in a video. To tackle this problem, current methods use a separate vision-based inverse dynamic model trained on embodiment-specific data to map image states to actions. Gathering data to train such a model is often expensive and challenging, and this model is limited to visual settings similar to the ones in which data are available. In this paper, we investigate how to directly ground video models to continuous actions through self-exploration in the embodied environment — using generated video states as visual goals for exploration. We propose a framework that uses trajectory level action generation in combination with video guidance to enable an agent to solve complex tasks without any external supervision, e.g., rewards, action labels, or segmentation masks. We validate the proposed approach on 8 tasks in Libero, 6 tasks in MetaWorld, 4 tasks in Calvin, and 12 tasks in iThor Visual Navigation. We show how our approach is on par with or even surpasses multiple behavior cloning baselines trained on expert demonstrations while without requiring any action annotations.

arxiv情報

著者 Yunhao Luo,Yilun Du
発行日 2024-11-11 18:43:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク