Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

要約

最新の機械学習システムは、広範な一般化を達成するために大規模なデータセットに依存しています。これは、各ロボット プラットフォームとタスクが小規模なデータセットしか持たないロボット学習では、しばしば課題を引き起こします。
多くの異なる種類のロボットにわたって単一のポリシーをトレーニングすることにより、ロボット学習方法はより広範囲で多様なデータセットを活用できるようになり、その結果一般化と堅牢性の向上につながる可能性があります。
ただし、ロボットにはさまざまなセンサー、アクチュエーター、制御周波数が搭載されている可能性があるため、複数のロボットのデータで単一のポリシーをトレーニングすることは困難です。
我々は、任意の実施形態からのデータを消費できる、スケーラブルで柔軟なトランスフォーマベースのポリシーであるCrossFormerを提案する。
私たちは、これまでで最大かつ最も多様なデータセット、20 の異なるロボットの実施形態にわたる 900K の軌道で CrossFormer をトレーニングします。
同じネットワークの重みで、シングル アームおよびデュアル アーム操作システム、車輪付きロボット、クアッドコプター、四足歩行機など、非常に異なるロボットを制御できることを実証します。
以前の研究とは異なり、私たちのモデルは観察空間またはアクション空間を手動で位置合わせする必要がありません。
現実世界での広範な実験により、私たちの方法は各実施形態に合わせた専門家ポリシーのパフォーマンスに匹敵する一方、クロス実施形態学習においては従来の最先端技術を大幅に上回っていることが示されています。

要約(オリジナル)

Modern machine learning systems rely on large datasets to attain broad generalization, and this often poses a challenge in robot learning, where each robotic platform and task might have only a small dataset. By training a single policy across many different kinds of robots, a robot learning method can leverage much broader and more diverse datasets, which in turn can lead to better generalization and robustness. However, training a single policy on multi-robot data is challenging because robots can have widely varying sensors, actuators, and control frequencies. We propose CrossFormer, a scalable and flexible transformer-based policy that can consume data from any embodiment. We train CrossFormer on the largest and most diverse dataset to date, 900K trajectories across 20 different robot embodiments. We demonstrate that the same network weights can control vastly different robots, including single and dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds. Unlike prior work, our model does not require manual alignment of the observation or action spaces. Extensive experiments in the real world show that our method matches the performance of specialist policies tailored for each embodiment, while also significantly outperforming the prior state of the art in cross-embodiment learning.

arxiv情報

著者 Ria Doshi,Homer Walke,Oier Mees,Sudeep Dasari,Sergey Levine
発行日 2024-08-21 17:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク