Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation

要約

マルチタスクのロボット操作のための視覚運動ポリシーを学習することは、ロボット工学コミュニティにとって長年の課題でした。
問題は、アクション空間の多様性にあります。通常、目標は複数の方法で達成できるため、単一のタスクに対してマルチモーダルなアクションが分散されることになります。
タスクの数が増えると、アクションの分散の複雑さが増します。
この研究では、マルチタスク操作スキルを備えた汎用エージェントを訓練するためのロボット学習手法 \textbf{離散ポリシー} を提案します。
離散ポリシーは、ベクトル量子化を使用してアクション シーケンスを離散潜在空間にマッピングし、タスク固有のコードの学習を容易にします。
これらのコードは、観察と言語指導に基づいてアクション空間に再構築されます。
私たちは、シミュレーションと、単腕ロボット設定と両手ロボット設定の両方を含む複数の実世界の実施形態の両方で方法を評価します。
私たちは、私たちが提案する個別ポリシーが、確立された拡散ポリシーのベースラインや、ACT、Octo、OpenVLA などの多くの最先端のアプローチよりも優れていることを実証します。
たとえば、5 つのタスクを含む実際のマルチタスク トレーニング設定では、Discrete Policy は Diffusion Policy よりも 26\% 高く、OpenVLA よりも 15\% 高い平均成功率を達成します。
タスクの数が 12 に増加すると、個別ポリシーと拡散ポリシーのパフォーマンスの差は 32.5\% に拡大し、このアプローチの利点がさらに明確になります。
私たちの研究は、潜在空間内でマルチタスク ポリシーを学習することが、汎用エージェントを実現するための重要なステップであることを経験的に示しています。

要約(オリジナル)

Learning visuomotor policy for multi-task robotic manipulation has been a long-standing challenge for the robotics community. The difficulty lies in the diversity of action space: typically, a goal can be accomplished in multiple ways, resulting in a multimodal action distribution for a single task. The complexity of action distribution escalates as the number of tasks increases. In this work, we propose \textbf{Discrete Policy}, a robot learning method for training universal agents capable of multi-task manipulation skills. Discrete Policy employs vector quantization to map action sequences into a discrete latent space, facilitating the learning of task-specific codes. These codes are then reconstructed into the action space conditioned on observations and language instruction. We evaluate our method on both simulation and multiple real-world embodiments, including both single-arm and bimanual robot settings. We demonstrate that our proposed Discrete Policy outperforms a well-established Diffusion Policy baseline and many state-of-the-art approaches, including ACT, Octo, and OpenVLA. For example, in a real-world multi-task training setting with five tasks, Discrete Policy achieves an average success rate that is 26\% higher than Diffusion Policy and 15\% higher than OpenVLA. As the number of tasks increases to 12, the performance gap between Discrete Policy and Diffusion Policy widens to 32.5\%, further showcasing the advantages of our approach. Our work empirically demonstrates that learning multi-task policies within the latent space is a vital step toward achieving general-purpose agents.

arxiv情報

著者 Kun Wu,Yichen Zhu,Jinming Li,Junjie Wen,Ning Liu,Zhiyuan Xu,Qinru Qiu,Jian Tang
発行日 2024-09-27 12:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク