Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality in Human-Robot Interaction

要約

ロボットは、その卓越した作業能力、精度、効率性、拡張性により、幅広い環境でますます人気が高まっています。
この発展は、人工知能、特に機械学習の進歩によってさらに促進されています。
高度なニューラル ネットワークを採用することにより、ロボットは近くにある物体を検出し、相互作用することができます。
ただし、これらの物体検出モデルには、広範なデータセットへの根本的な依存性と、かなりの量のトレーニング データが利用可能であることから、重大な欠点が生じます。
この問題は、ロボットの具体的な配置場所とその周囲が事前にわかっていない場合に特に問題になります。
膨大で拡大し続けるオブジェクトの配列により、既存のデータセットだけを使用して既存のオブジェクトのスペクトル全体を包括的にカバーすることは事実上不可能です。
この論文の目標は、ヒューマン ロボット インタラクション (HRI) のコンテキストで未知のオブジェクトをロボットに教え、データ依存性からロボットを解放し、事前定義されたシナリオから解放することでした。
この状況において、視線追跡と拡張現実の組み合わせは強力な相乗効果を生み出し、人間の教師がロボットとコミュニケーションをとり、人間の視線によって楽に物体を指摘できるようになりました。
この総合的なアプローチにより、ロボットが 3D 空間内の対象オブジェクトを識別し、視覚的にセグメント化できるマルチモーダル HRI システムの開発が実現しました。
人間が提供するクラス情報を通じて、ロボットはオブジェクトを学習し、後の段階で再検出することができました。
この HRI ベースの教示から得られた知識により、ロボットの物体検出機能は、事前定義されたクラスに制限されることなく、広範なデータセットでトレーニングされた最先端の物体検出器と同等のパフォーマンスを示し、その多用途性と適応性を示しました。

要約(オリジナル)

Robots are becoming increasingly popular in a wide range of environments due to their exceptional work capacity, precision, efficiency, and scalability. This development has been further encouraged by advances in Artificial Intelligence, particularly Machine Learning. By employing sophisticated neural networks, robots are given the ability to detect and interact with objects in their vicinity. However, a significant drawback arises from the underlying dependency on extensive datasets and the availability of substantial amounts of training data for these object detection models. This issue becomes particularly problematic when the specific deployment location of the robot and the surroundings, are not known in advance. The vast and ever-expanding array of objects makes it virtually impossible to comprehensively cover the entire spectrum of existing objects using preexisting datasets alone. The goal of this dissertation was to teach a robot unknown objects in the context of Human-Robot Interaction (HRI) in order to liberate it from its data dependency, unleashing it from predefined scenarios. In this context, the combination of eye tracking and Augmented Reality created a powerful synergy that empowered the human teacher to communicate with the robot and effortlessly point out objects by means of human gaze. This holistic approach led to the development of a multimodal HRI system that enabled the robot to identify and visually segment the Objects of Interest in 3D space. Through the class information provided by the human, the robot was able to learn the objects and redetect them at a later stage. Due to the knowledge gained from this HRI based teaching, the robot’s object detection capabilities exhibited comparable performance to state-of-the-art object detectors trained on extensive datasets, without being restricted to predefined classes, showcasing its versatility and adaptability.

arxiv情報

著者 Daniel Weber
発行日 2023-12-12 11:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO パーマリンク