要約
私たちは未知のオブジェクトの再配置のタスクに焦点を当てます。このタスクでは、ロボットがオブジェクトを RGB-D 画像で指定された望ましい目標構成に再構成することになっています。
最近の研究では、学習ベースの知覚モジュールを組み込むことにより、未知のオブジェクトの再配置システムを調査しています。
ただし、認識エラーには敏感であり、タスクレベルのパフォーマンスにはあまり注意を払いません。
この論文では、知覚ノイズの中で未知のオブジェクトを再配置するための効果的なシステムを開発することを目的としています。
我々は、ノイズの多い知覚が、分離された方法での把握と配置に影響を与えることを理論的に明らかにし、そのような分離された構造がタスクの最適性を向上させるのに有益であることを示します。
我々は従来と同様にデカップリング構造を備えたデュアルループシステムであるGSPを提案します。
内側のループでは、自信を持って手持ちのオブジェクトを照合するためのポリシーを学習します。
外側のループでは、オブジェクトのマッチングを意識した把握ポリシーと、タスクレベルの報酬に基づいた把握能力を学習します。
オブジェクトのマッチング、ポリシーの学習、および自己終了には基盤モデル CLIP を活用します。
一連の実験により、GSP はより高い完了率とより少ない手順で未知のオブジェクトの再配置を実行できることが示されました。
要約(オリジナル)
We focus on the task of unknown object rearrangement, where a robot is supposed to re-configure the objects into a desired goal configuration specified by an RGB-D image. Recent works explore unknown object rearrangement systems by incorporating learning-based perception modules. However, they are sensitive to perception error, and pay less attention to task-level performance. In this paper, we aim to develop an effective system for unknown object rearrangement amidst perception noise. We theoretically reveal the noisy perception impacts grasp and place in a decoupled way, and show such a decoupled structure is valuable to improve task optimality. We propose GSP, a dual-loop system with the decoupled structure as prior. For the inner loop, we learn a see policy for self-confident in-hand object matching. For the outer loop, we learn a grasp policy aware of object matching and grasp capability guided by task-level rewards. We leverage the foundation model CLIP for object matching, policy learning and self-termination. A series of experiments indicate that GSP can conduct unknown object rearrangement with higher completion rates and fewer steps.
arxiv情報
著者 | Kechun Xu,Zhongxiang Zhou,Jun Wu,Haojian Lu,Rong Xiong,Yue Wang |
発行日 | 2024-08-01 16:31:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google