Zero-shot Active Visual Search (ZAVIS): Intelligent Object Search for Robotic Assistants

要約

本論文では、視覚センサ(RGBDカメラなど)を搭載した移動ロボットを用いて、自由形式の言語で記述された目標物を効率的に探し出す問題に注目する。従来のアクティブビジュアルサーチでは、検索対象となるオブジェクトのセットがあらかじめ定義されているため、これらの技術は実際には制限されたものとなっている。そこで本研究では、ユーザが自由な発想で対象物を探索するシステムを提案する。AVSWは、机やベッドなどの静的なランドマークで表現された意味グリッドマップを通して、ユーザが入力した目標物を検出し、探索計画を立てる。AVSWはオブジェクトの探索パターンを効率的に計画するために、常識的な知識に基づく共起性と予測不確実性を考慮しながら、どのランドマークを最初に訪れるべきかを決定する。提案手法をシミュレーション環境と実環境の両方でSR (success rate)とSPL (success weighted by path length)に関して検証を行った。提案手法は、シミュレーションシナリオにおいて、SPLの平均差が0.283で、従来の手法より優れている。さらに、実環境での研究において、Pioneer-3ATロボットを用いてAVSWを実証した。

要約(オリジナル)

In this paper, we focus on the problem of efficiently locating a target object described with free-form language using a mobile robot equipped with vision sensors (e.g., an RGBD camera). Conventional active visual search predefines a set of objects to search for, rendering these techniques restrictive in practice. To provide added flexibility in active visual searching, we propose a system where a user can enter target commands using free-form language; we call this system Active Visual Search in the Wild (AVSW). AVSW detects and plans to search for a target object inputted by a user through a semantic grid map represented by static landmarks (e.g., desk or bed). For efficient planning of object search patterns, AVSW considers commonsense knowledge-based co-occurrence and predictive uncertainty while deciding which landmarks to visit first. We validate the proposed method with respect to SR (success rate) and SPL (success weighted by path length) in both simulated and real-world environments. The proposed method outperforms previous methods in terms of SPL in simulated scenarios with an average gap of 0.283. We further demonstrate AVSW with a Pioneer-3AT robot in real-world studies.

arxiv情報

著者 Jeongeun Park,Taerim Yoon,Jejoon Hong,Youngjae Yu,Matthew Pan,Sungjoon Choi
発行日 2023-02-07 15:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク