要約
Language-Conditioned Robotic Grasping (LCRG) は、自然言語の指示に基づいて物体を接地して把握するロボットの開発を目的としています。
「私の財布」のような個人的なオブジェクトを認識できるロボットは、専門家以外のユーザーとより自然に対話できますが、現在の LCRG システムでは主に、ロボットが理解できるのは一般的な表現のみに制限されています。
この目的を達成するために、単一の人間とロボットのインタラクションからの学習を通じて、個人指標が与えられた個人オブジェクトの位置を特定して把握することを目的とした、新しいデータセットを備えたタスク シナリオ GraspMine を導入します。
GraspMine に対処するために、私たちは Personalized Grasping Agent (PGA) を提案します。これは、ユーザーの環境からの生の画像のコレクションである Reminiscence を通じてユーザーが与えた情報を伝播することによって個人オブジェクトを学習します。
具体的には、PGA は、ユーザーが個人オブジェクトをその関連インジケーターとともに提示することによって個人オブジェクト情報を取得し、続いて PGA がオブジェクトを回転させて検査します。
取得した情報に基づいて、PGA は提案したラベル伝播アルゴリズムによって Reminiscence 内のオブジェクトに擬似ラベルを付けます。
インタラクションから取得した情報と回想内の擬似ラベル付けされたオブジェクトを利用して、PGA はオブジェクト グラウンディング モデルを適応させて個人的なオブジェクトを把握します。
GraspMine の実験では、PGA がオフライン設定とオンライン設定の両方でベースライン手法を大幅に上回るパフォーマンスを示し、現実世界のシナリオでのその有効性とパーソナライゼーションの適用可能性を示しています。
最後に、定性分析では、各フェーズの結果を詳細に調査することで PGA の有効性を示します。
要約(オリジナル)
Language-Conditioned Robotic Grasping (LCRG) aims to develop robots that ground and grasp objects based on natural language instructions. While robots capable of recognizing personal objects like ‘my wallet’ can interact more naturally with non-expert users, current LCRG systems primarily limit robots to understanding only generic expressions. To this end, we introduce a task scenario GraspMine with a novel dataset that aims to locate and grasp personal objects given personal indicators via learning from a single human-robot interaction. To address GraspMine, we propose Personalized Grasping Agent (PGA), that learns personal objects by propagating user-given information through a Reminiscence-a collection of raw images from the user’s environment. Specifically, PGA acquires personal object information by a user presenting a personal object with its associated indicator, followed by PGA inspecting the object by rotating it. Based on the acquired information, PGA pseudo-labels objects in the Reminiscence by our proposed label propagation algorithm. Harnessing the information acquired from the interactions and the pseudo-labeled objects in the Reminiscence, PGA adapts the object grounding model to grasp personal objects. Experiments on GraspMine show that PGA significantly outperforms baseline methods both in offline and online settings, signifying its effectiveness and personalization applicability on real-world scenarios. Finally, qualitative analysis shows the effectiveness of PGA through a detailed investigation of results in each phase.
arxiv情報
著者 | Junghyun Kim,Gi-Cheon Kang,Jaein Kim,Seoyun Yang,Minjoon Jung,Byoung-Tak Zhang |
発行日 | 2023-10-19 07:54:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google