要約
長期的な目標を持った新しい環境で効果的な意思決定を行うには、空間的および時間的スケールにわたる階層的推論に取り組むことが重要です。
これには、抽象的なサブ目標シーケンスを計画し、基礎となる計画について視覚的に推論し、視覚運動制御を通じて考案された計画に従ってアクションを実行することが必要になります。
私たちは、長期的なタスクを解決するために、言語、視覚、および行動データで個別に訓練された複数の専門家基盤モデルを共同で活用する基盤モデルである、階層計画のための構成基盤モデル (HiP) を提案します。
私たちは大規模な言語モデルを使用して、大規模なビデオ普及モデルを通じて環境に根ざした象徴的な計画を構築します。
生成されたビデオ プランは、生成されたビデオからアクションを推測する逆ダイナミクス モデルを通じて、視覚運動制御に基づいて作成されます。
この階層内で効果的な推論を可能にするために、反復的な改良を通じてモデル間の一貫性を確保します。
3 つの異なる長期のテーブルトップ操作タスクにおけるアプローチの有効性と適応性を説明します。
要約(オリジナル)
To make effective decisions in novel environments with long-horizon goals, it is crucial to engage in hierarchical reasoning across spatial and temporal scales. This entails planning abstract subgoal sequences, visually reasoning about the underlying plans, and executing actions in accordance with the devised plan through visual-motor control. We propose Compositional Foundation Models for Hierarchical Planning (HiP), a foundation model which leverages multiple expert foundation model trained on language, vision and action data individually jointly together to solve long-horizon tasks. We use a large language model to construct symbolic plans that are grounded in the environment through a large video diffusion model. Generated video plans are then grounded to visual-motor control, through an inverse dynamics model that infers actions from generated videos. To enable effective reasoning within this hierarchy, we enforce consistency between the models via iterative refinement. We illustrate the efficacy and adaptability of our approach in three different long-horizon table-top manipulation tasks.
arxiv情報
著者 | Anurag Ajay,Seungwook Han,Yilun Du,Shuang Li,Abhi Gupta,Tommi Jaakkola,Josh Tenenbaum,Leslie Kaelbling,Akash Srivastava,Pulkit Agrawal |
発行日 | 2023-09-21 14:49:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google