Attribute-Based Robotic Grasping with Data-Efficient Adaptation

要約

ロボットによる把握は、最も基本的なロボット操作タスクの 1 つであり、広範な研究の対象となっています。
しかし、乱雑に散らばった新しい対象物体をロボットに迅速に把握させることは依然として困難です。
この論文では、認識、把握、新しい領域への迅速な適応を容易にするオブジェクト属性を活用することで、この課題に対処しようとしています。
この研究では、データ効率の高い適応能力を備えた属性ベースのロボットによる把握を学習するための、エンドツーエンドのエンコーダ/デコーダ ネットワークを紹介します。
まず、さまざまな基本オブジェクトを使用してエンドツーエンドのモデルを事前トレーニングし、認識と把握のための一般的な属性表現を学習します。
私たちのアプローチは、ゲートされた注意メカニズムを使用してワークスペース画像の埋め込みとクエリテキストを融合し、インスタンス把握アフォーダンスを予測することを学習します。
視覚的属性とテキスト属性の結合埋め込み空間をトレーニングするために、ロボットは把握の前後でオブジェクトの永続性を利用します。
私たちのモデルは、さまざまな色や形の基本的なオブジェクトのみを使用するシミュレーションで自己教師化されていますが、新しい環境では新しいオブジェクトに一般化されます。
一般化をさらに容易にするために、敵対的適応とワングリップ適応という 2 つの適応方法を提案します。
敵対的適応は、ラベルのない画像の拡張データを使用して画像エンコーダーを調整しますが、ワングラスプ適応は、1 つの把握トライアルからの拡張データを使用して全体のエンドツーエンド モデルを更新します。
どちらの適応方法もデータ効率が高く、インスタンス把握のパフォーマンスが大幅に向上します。
シミュレーションと現実世界の両方での実験結果は、私たちのアプローチが未知の物体上で 81% 以上のインスタンス把握成功率を達成し、これはいくつかのベースラインを大幅に上回っていることを示しています。

要約(オリジナル)

Robotic grasping is one of the most fundamental robotic manipulation tasks and has been the subject of extensive research. However, swiftly teaching a robot to grasp a novel target object in clutter remains challenging. This paper attempts to address the challenge by leveraging object attributes that facilitate recognition, grasping, and rapid adaptation to new domains. In this work, we present an end-to-end encoder-decoder network to learn attribute-based robotic grasping with data-efficient adaptation capability. We first pre-train the end-to-end model with a variety of basic objects to learn generic attribute representation for recognition and grasping. Our approach fuses the embeddings of a workspace image and a query text using a gated-attention mechanism and learns to predict instance grasping affordances. To train the joint embedding space of visual and textual attributes, the robot utilizes object persistence before and after grasping. Our model is self-supervised in a simulation that only uses basic objects of various colors and shapes but generalizes to novel objects in new environments. To further facilitate generalization, we propose two adaptation methods, adversarial adaption and one-grasp adaptation. Adversarial adaptation regulates the image encoder using augmented data of unlabeled images, whereas one-grasp adaptation updates the overall end-to-end model using augmented data from one grasp trial. Both adaptation methods are data-efficient and considerably improve instance grasping performance. Experimental results in both simulation and the real world demonstrate that our approach achieves over 81% instance grasping success rate on unknown objects, which outperforms several baselines by large margins.

arxiv情報

著者 Yang Yang,Houjian Yu,Xibai Lou,Yuanhao Liu,Changhyun Choi
発行日 2025-01-04 00:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク