要約
汎用ロボット エージェントの汎用化機能の向上は、研究コミュニティによって長年にわたって積極的に追求されてきた重要な課題です。
既存のアプローチは、多くの場合、RT-1 データセットなどの大規模な実世界のロボット データの収集に依存しています。
ただし、これらのアプローチは通常、効率が低く、新しいオブジェクトや多様な背景を含むオープンドメインのシナリオでは機能が制限されます。
この論文では、最先端の基盤モデルによって生成された言語ベースのセグメンテーション マスクを効果的に活用し、日常のシナリオにおける幅広いピック アンド プレイス ロボット操作タスクに対処する新しいパラダイムを提案します。
マスクから伝達される正確なセマンティクスとジオメトリをマルチビュー ポリシー モデルに統合することにより、私たちのアプローチは正確なオブジェクトのポーズを認識し、サンプル効率の高い学習を可能にすることができます。
さらに、そのような設計は、トレーニング中に観察された同様の形状を持つ新しいオブジェクトを把握するための効果的な一般化を促進します。
私たちのアプローチは 2 つの異なるステップで構成されます。
まず、複数のタスクにわたる自然言語の要求を正確に基礎づけるための一連の基礎モデルを導入します。
次に、RGB 画像、セマンティック マスク、ロボットの固有受容状態などの入力を組み込んで、正確で実行可能なロボットの動作を共同で予測する、マルチモーダル マルチビュー ポリシー モデルを開発します。
Franka Emika ロボット アームで行われた広範な実世界での実験により、私たちが提案したパラダイムの有効性が検証されました。
実際のデモは YouTube (https://www.youtube.com/watch?v=1m9wNzfp_4E ) と Bilibili (https://www.bilibili.com/video/BV178411Z7H2/ ) でご覧いただけます。
要約(オリジナル)
Improving the generalization capabilities of general-purpose robotic agents has long been a significant challenge actively pursued by research communities. Existing approaches often rely on collecting large-scale real-world robotic data, such as the RT-1 dataset. However, these approaches typically suffer from low efficiency, limiting their capability in open-domain scenarios with new objects, and diverse backgrounds. In this paper, we propose a novel paradigm that effectively leverages language-grounded segmentation masks generated by state-of-the-art foundation models, to address a wide range of pick-and-place robot manipulation tasks in everyday scenarios. By integrating precise semantics and geometries conveyed from masks into our multi-view policy model, our approach can perceive accurate object poses and enable sample-efficient learning. Besides, such design facilitates effective generalization for grasping new objects with similar shapes observed during training. Our approach consists of two distinct steps. First, we introduce a series of foundation models to accurately ground natural language demands across multiple tasks. Second, we develop a Multi-modal Multi-view Policy Model that incorporates inputs such as RGB images, semantic masks, and robot proprioception states to jointly predict precise and executable robot actions. Extensive real-world experiments conducted on a Franka Emika robot arm validate the effectiveness of our proposed paradigm. Real-world demos are shown in YouTube (https://www.youtube.com/watch?v=1m9wNzfp_4E ) and Bilibili (https://www.bilibili.com/video/BV178411Z7H2/ ).
arxiv情報
著者 | Jiange Yang,Wenhui Tan,Chuhao Jin,Bei Liu,Jianlong Fu,Ruihua Song,Limin Wang |
発行日 | 2023-06-25 03:05:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google