要約
視覚運動ロボットに、オープンワールドの多様なシナリオで動作する汎用化機能を与えることはできるでしょうか?
この論文では、視覚強化学習向けに調整された一般化可能なフレームワークである \textbf{Maniwhere} を提案します。これにより、訓練されたロボット ポリシーを複数の視覚障害タイプの組み合わせ全体で一般化できるようになります。
具体的には、空間変換ネットワーク (STN) モジュールと融合したマルチビュー表現学習アプローチを導入して、異なる視点間の共有された意味情報と対応関係をキャプチャします。
さらに、カリキュラムベースのランダム化および拡張アプローチを採用して、RL トレーニング プロセスを安定させ、視覚的な一般化能力を強化します。
Maniwhere の有効性を示すために、多関節オブジェクト、両手操作、器用な手の操作タスクを含む 8 つのタスクを細心の注意を払って設計し、Maniwhere の強力な視覚的一般化と 3 つのハードウェア プラットフォームにわたる sim2real 転送能力を実証します。
私たちの実験では、Maniwhere が既存の最先端の方法を大幅に上回るパフォーマンスを示しています。
ビデオは https://gemcollector.github.io/maniwhere/ で提供されています。
要約(オリジナル)
Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose \textbf{Maniwhere}, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere’s strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/.
arxiv情報
著者 | Zhecheng Yuan,Tianming Wei,Shuiqi Cheng,Gu Zhang,Yuanpei Chen,Huazhe Xu |
発行日 | 2024-10-23 05:32:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google