要約
私たちは、ロボットが部分視点の点群から長期的な操作タスクを解決できるようにするリレーショナル ダイナミクス モデルを備えた構成可能な計画のためのフレームワークである Points2Plans を紹介します。
言語命令とシーンの点群が与えられると、私たちのフレームワークは階層的な計画手順を開始します。これにより、言語モデルが高レベルの計画を生成し、サンプリングベースのプランナーが、高レベルの計画に従って順序付けられた操作プリミティブの制約を満たす連続パラメータを生成します。
-レベルプラン。
私たちのアプローチの鍵となるのは、状態とアクションの連続表現と記号表現の間の統合インターフェイスとしてリレーショナル ダイナミクス モデルを使用することです。これにより、点群などの高次元の知覚入力からの言語駆動型の計画が容易になります。
以前のリレーショナル ダイナミクス モデルでは、意図したテスト シナリオに合わせたマルチステップ操作シナリオのデータセットでのトレーニングが必要ですが、Points2Plans では、実際の評価中にゼロショットを可変ステップ数に一般化しながら、シングルステップのシミュレートされたトレーニング データのみを使用します。
私たちは、幾何学的推論、複数オブジェクトの相互作用、および遮蔽されたオブジェクトの推論を含むタスクに対するアプローチを、シミュレーション設定と現実世界の両方の設定で評価します。
結果は、Points2Plans が現実世界の目に見えない長期タスクに対する強力な一般化を提供し、評価されたタスクの 85% 以上を解決するのに対し、次に優れたベースラインは 50% しか解決しないことを示しています。
モバイル マニピュレータ プラットフォームで動作する当社のアプローチの定性的なデモンストレーションは、sites.google.com/stanford.edu/points2plans で利用できます。
要約(オリジナル)
We present Points2Plans, a framework for composable planning with a relational dynamics model that enables robots to solve long-horizon manipulation tasks from partial-view point clouds. Given a language instruction and a point cloud of the scene, our framework initiates a hierarchical planning procedure, whereby a language model generates a high-level plan and a sampling-based planner produces constraint-satisfying continuous parameters for manipulation primitives sequenced according to the high-level plan. Key to our approach is the use of a relational dynamics model as a unifying interface between the continuous and symbolic representations of states and actions, thus facilitating language-driven planning from high-dimensional perceptual input such as point clouds. Whereas previous relational dynamics models require training on datasets of multi-step manipulation scenarios that align with the intended test scenarios, Points2Plans uses only single-step simulated training data while generalizing zero-shot to a variable number of steps during real-world evaluations. We evaluate our approach on tasks involving geometric reasoning, multi-object interactions, and occluded object reasoning in both simulated and real-world settings. Results demonstrate that Points2Plans offers strong generalization to unseen long-horizon tasks in the real world, where it solves over 85% of evaluated tasks while the next best baseline solves only 50%. Qualitative demonstrations of our approach operating on a mobile manipulator platform are made available at sites.google.com/stanford.edu/points2plans.
arxiv情報
著者 | Yixuan Huang,Christopher Agia,Jimmy Wu,Tucker Hermans,Jeannette Bohg |
発行日 | 2024-08-27 04:10:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google