Mobi-$π$: Mobilizing Your Robot Learning Policy

要約

学んだ視覚運動ポリシーは、ますます複雑な操作タスクを実行することができます。
ただし、これらのポリシーのほとんどは、限られたロボットの位置とカメラの視点から収集されたデータについてトレーニングされています。
これにより、新しいロボットポジションへの一般化が不十分になり、特にボタンを押すことや蛇口回転などの正確なタスクで、モバイルプラットフォームでのこれらのポリシーの使用が制限されます。
この作業では、ポリシーの動員問題を策定します。限られたカメラの視点で訓練された操作ポリシーに関して分布している新しい環境でモバイルロボットベースのポーズを見つけます。
ポリシー自体が目に見えないロボットベースの初期化により堅牢であるために、ポリシー自体がより堅牢であると比較すると、ポリシーの動員は操作からのナビゲーションを分離しているため、追加のデモを必要としません。
重要なことに、この問題の定式化は、新しい視点に対する操作ポリシーの堅牢性を改善するための既存の努力を補完し、それらと互換性があり続けます。
ポリシーの動員を研究するために、次のことを含むmobi-$ \ pi $フレームワークを紹介します。(1)特定のポリシーを動員することの難しさを定量化するメトリック、(2)ロボカサに基づくシミュレートされたモバイル操作タスクのスイートは、ポリシーの動員を評価します。
また、ロボットのベースポーズを最適化して、学習したポリシーの分配内のベースポーズに合わせてナビゲーションと操作を橋渡しする新しいアプローチを提案します。
私たちのアプローチでは、新しいビュー合成のために3Dガウスのスプラッティング、ポーズ適合性を評価するスコア関数、および最適なロボットポーズを特定するためのサンプリングベースの最適化を利用しています。
私たちのアプローチは、シミュレーションと現実世界の両方の環境の両方でベースラインよりも優れていることを示し、政策の動員に対するその有効性を示しています。

要約(オリジナル)

Learned visuomotor policies are capable of performing increasingly complex manipulation tasks. However, most of these policies are trained on data collected from limited robot positions and camera viewpoints. This leads to poor generalization to novel robot positions, which limits the use of these policies on mobile platforms, especially for precise tasks like pressing buttons or turning faucets. In this work, we formulate the policy mobilization problem: find a mobile robot base pose in a novel environment that is in distribution with respect to a manipulation policy trained on a limited set of camera viewpoints. Compared to retraining the policy itself to be more robust to unseen robot base pose initializations, policy mobilization decouples navigation from manipulation and thus does not require additional demonstrations. Crucially, this problem formulation complements existing efforts to improve manipulation policy robustness to novel viewpoints and remains compatible with them. To study policy mobilization, we introduce the Mobi-$\pi$ framework, which includes: (1) metrics that quantify the difficulty of mobilizing a given policy, (2) a suite of simulated mobile manipulation tasks based on RoboCasa to evaluate policy mobilization, (3) visualization tools for analysis, and (4) several baseline methods. We also propose a novel approach that bridges navigation and manipulation by optimizing the robot’s base pose to align with an in-distribution base pose for a learned policy. Our approach utilizes 3D Gaussian Splatting for novel view synthesis, a score function to evaluate pose suitability, and sampling-based optimization to identify optimal robot poses. We show that our approach outperforms baselines in both simulation and real-world environments, demonstrating its effectiveness for policy mobilization.

arxiv情報

著者 Jingyun Yang,Isabella Huang,Brandon Vu,Max Bajracharya,Rika Antonova,Jeannette Bohg
発行日 2025-05-29 17:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク