要約
配布外のシーンに一般化するロボット操作を可能にすることは、オープンワールドの身体化されたインテリジェンスに向けた重要なステップです。
人間にとって、この能力はオブジェクト間の意味論的な対応の理解に根ざしており、これにより、馴染みのあるオブジェクトのインタラクション体験が新しいオブジェクトに自然に変換されます。
ロボットにはそのような対話経験の宝庫はありませんが、インターネット上で人間のビデオが大量に入手できることは、接触点を含むアフォーダンス記憶を抽出する貴重なリソースとして機能する可能性があります。
人間の自然な思考方法に触発されて、私たちは Robo-ABC を提案します。一般化が必要な見慣れないオブジェクトに直面したとき、ロボットは視覚的または意味的な類似性を共有するオブジェクトをアフォーダンス メモリから検索することでアフォーダンスを獲得できます。
次のステップでは、取得したオブジェクトの接触点を新しいオブジェクトにマッピングします。
この対応関係を確立することは、一見すると手ごわい課題かもしれませんが、最近の研究では、これが事前トレーニングされた拡散モデルから自然に生じ、異種のオブジェクト カテゴリ間でもアフォーダンス マッピングが可能になることがわかりました。
Robo-ABC フレームワークを通じて、ロボットは、手動の注釈、追加のトレーニング、パーツのセグメンテーション、事前にコード化された知識、または視点の制限なしで、カテゴリー外のオブジェクトをゼロショット方式で操作するように一般化できます。
定量的には、Robo-ABC は視覚的アフォーダンス検索の精度を、最先端 (SOTA) のエンドツーエンド アフォーダンス モデルと比較して 31.6% という大きなマージンで大幅に向上させます。
また、カテゴリを超えた物体把握タスクの実世界実験も行っています。
Robo-ABC は 85.7% の成功率を達成し、現実世界のタスクに対応できる能力を証明しました。
要約(オリジナル)
Enabling robotic manipulation that generalizes to out-of-distribution scenes is a crucial step toward open-world embodied intelligence. For human beings, this ability is rooted in the understanding of semantic correspondence among objects, which naturally transfers the interaction experience of familiar objects to novel ones. Although robots lack such a reservoir of interaction experience, the vast availability of human videos on the Internet may serve as a valuable resource, from which we extract an affordance memory including the contact points. Inspired by the natural way humans think, we propose Robo-ABC: when confronted with unfamiliar objects that require generalization, the robot can acquire affordance by retrieving objects that share visual or semantic similarities from the affordance memory. The next step is to map the contact points of the retrieved objects to the new object. While establishing this correspondence may present formidable challenges at first glance, recent research finds it naturally arises from pre-trained diffusion models, enabling affordance mapping even across disparate object categories. Through the Robo-ABC framework, robots may generalize to manipulate out-of-category objects in a zero-shot manner without any manual annotation, additional training, part segmentation, pre-coded knowledge, or viewpoint restrictions. Quantitatively, Robo-ABC significantly enhances the accuracy of visual affordance retrieval by a large margin of 31.6% compared to state-of-the-art (SOTA) end-to-end affordance models. We also conduct real-world experiments of cross-category object-grasping tasks. Robo-ABC achieved a success rate of 85.7%, proving its capacity for real-world tasks.
arxiv情報
著者 | Yuanchen Ju,Kaizhe Hu,Guowei Zhang,Gu Zhang,Mingrun Jiang,Huazhe Xu |
発行日 | 2024-01-15 06:02:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google