要約
オブジェクト検出のためのデータセットは、透明で反射的な特性のため、十分な種類のメガネを考慮しないことがよくあります。
具体的には、具体化されたロボット剤で広く使用されているオープンボキャブラリーオブジェクト検出器は、メガネのサブクラスを区別できません。
この科学的ギャップは、検出、計画、および行動の実行の間の誤りの蓄積に苦しむロボットアプリケーションに問題を提起します。
このペーパーでは、人間の努力を最小限に抑えるRGB-Dセンサーから実際のデータを取得するための新しい方法を紹介します。
深度測定に基づいて、すべての取得したフレームのラベルを生成する自動ラベルパイプラインを提案します。
ヒューマノイドロボットプラットフォームであるNeuro-Inspired Collaborator(Nicol)で収集された新しい実世界のガラスオブジェクトデータセットを提供します。
データセットは、5つの異なるカメラから記録された7850の画像で構成されています。
訓練されたベースラインモデルが、最先端のオープンボキャブラリーアプローチよりも優れていることを示しています。
さらに、ニコルプラットフォームに具体化されたエージェントアプローチにベースラインモデルを展開し、その上で人間のロボットバーテンダーシナリオで81%の成功率を達成します。
要約(オリジナル)
Datasets for object detection often do not account for enough variety of glasses, due to their transparent and reflective properties. Specifically, open-vocabulary object detectors, widely used in embodied robotic agents, fail to distinguish subclasses of glasses. This scientific gap poses an issue to robotic applications that suffer from accumulating errors between detection, planning, and action execution. The paper introduces a novel method for the acquisition of real-world data from RGB-D sensors that minimizes human effort. We propose an auto-labeling pipeline that generates labels for all the acquired frames based on the depth measurements. We provide a novel real-world glass object dataset that was collected on the Neuro-Inspired COLlaborator (NICOL), a humanoid robot platform. The data set consists of 7850 images recorded from five different cameras. We show that our trained baseline model outperforms state-of-the-art open-vocabulary approaches. In addition, we deploy our baseline model in an embodied agent approach to the NICOL platform, on which it achieves a success rate of 81% in a human-robot bartending scenario.
arxiv情報
著者 | Lukáš Gajdošech,Hassan Ali,Jan-Gerrit Habekost,Martin Madaras,Matthias Kerzel,Stefan Wermter |
発行日 | 2025-03-06 10:51:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google