Bridging Perception and Action: Spatially-Grounded Mid-Level Representations for Robot Generalization

要約

この作業では、空間的に接地された補助表現が、幅広い高レベルの接地と直接的な実用的な情報の両方をどのように提供して、巧妙なタスクのポリシー学習のパフォーマンスと一般化を改善することができるかを調査します。
これらの中間レベルの表現は、オブジェクト中心、ポーズ認識、深さの認識という3つの重要な次元にわたって研究しています。
これらの解釈可能なミッドレベル表現を使用して、監視された学習を介して専門のエンコーダーを訓練し、拡散ポリシーへの入力としてフィードして、現実世界の器用な双方向の操作タスクを解決します。
ポリシーの一般化を改善するために、それぞれが明確な中間レベルの表現で訓練された複数の専門的な専門家モデルを組み合わせた新しい専門家のポリシーアーキテクチャを提案します。
この方法では、言語に基づいたベースラインより11%高く、評価タスクの標準拡散ポリシーベースラインよりも24%高い平均成功率を達成します。
さらに、加重模倣学習アルゴリズム内のポリシーアクションの監督シグナルとして中レベルの表現を活用すると、ポリシーがこれらの表現に従う精度が改善され、10%の追加のパフォーマンスが得られます。
私たちの調査結果は、幅広い知覚タスクだけでなく、より粒状で実用的な表現でロボットポリシーを接地することの重要性を強調しています。
詳細とビデオについては、https://mid-level-moe.github.ioをご覧ください。

要約(オリジナル)

In this work, we investigate how spatially grounded auxiliary representations can provide both broad, high-level grounding as well as direct, actionable information to improve policy learning performance and generalization for dexterous tasks. We study these mid-level representations across three critical dimensions: object-centricity, pose-awareness, and depth-awareness. We use these interpretable mid-level representations to train specialist encoders via supervised learning, then feed them as inputs to a diffusion policy to solve dexterous bimanual manipulation tasks in the real world. We propose a novel mixture-of-experts policy architecture that combines multiple specialized expert models, each trained on a distinct mid-level representation, to improve policy generalization. This method achieves an average success rate that is 11% higher than a language-grounded baseline and 24 percent higher than a standard diffusion policy baseline on our evaluation tasks. Furthermore, we find that leveraging mid-level representations as supervision signals for policy actions within a weighted imitation learning algorithm improves the precision with which the policy follows these representations, yielding an additional performance increase of 10%. Our findings highlight the importance of grounding robot policies not only with broad perceptual tasks but also with more granular, actionable representations. For further information and videos, please visit https://mid-level-moe.github.io.

arxiv情報

著者 Jonathan Yang,Chuyuan Kelly Fu,Dhruv Shah,Dorsa Sadigh,Fei Xia,Tingnan Zhang
発行日 2025-06-06 15:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.RO パーマリンク