要約
言語ガイドアクティブセンシングは、ロボット工学のサブタスクの一つであり、センサーを搭載したロボットが、与えられた言語命令に従って、知覚情報を最大化するために物体操作を通じて環境と効率的に相互作用する。このようなタスクは、家事サービス、捜索救助、環境モニタリングなど、様々な実用的なロボット工学アプリケーションに登場する。このような多くの応用があるにもかかわらず、既存の研究は言語指示を考慮しておらず、主に表面センシング、すなわち、密なセンシングのために環境を再配置することなく、外から環境を知覚することに焦点を当てている。そこで本論文では、ユーザがオブジェクトの操作を通じて環境の特定の部分を観察することを可能にする、初の言語ガイドアクティブセンシングアプローチを紹介する。本手法は、環境と言語指示を空間的に関連付け、知覚に最適なカメラの視点を決定し、次に、関心領域の高密度な知覚を提供するために、最適な視界を遮る物体を反復的に選択し再配置する。シミュレーションにより、本手法を様々なベースラインアルゴリズムと比較評価し、また、複数の未知の物体が存在する、現実世界の狭いキャビネットのような環境において、本手法を実証する。その結果、提案手法は様々な指標において優れた性能を示し、実世界の複雑なシナリオにうまく一般化できることが示された。
要約(オリジナル)
Language-guided active sensing is a robotics subtask where a robot with an onboard sensor interacts efficiently with the environment via object manipulation to maximize perceptual information, following given language instructions. These tasks appear in various practical robotics applications, such as household service, search and rescue, and environment monitoring. Despite many applications, the existing works do not account for language instructions and have mainly focused on surface sensing, i.e., perceiving the environment from the outside without rearranging it for dense sensing. Therefore, in this paper, we introduce the first language-guided active sensing approach that allows users to observe specific parts of the environment via object manipulation. Our method spatially associates the environment with language instructions, determines the best camera viewpoints for perception, and then iteratively selects and relocates the best view-blocking objects to provide the dense perception of the region of interest. We evaluate our method against different baseline algorithms in simulation and also demonstrate it in real-world confined cabinet-like settings with multiple unknown objects. Our results show that the proposed method exhibits better performance across different metrics and successfully generalizes to real-world complex scenarios.
arxiv情報
著者 | Weihan Chen,Hanwen Ren,Ahmed H. Qureshi |
発行日 | 2024-02-04 00:52:14+00:00 |
arxivサイト | arxiv_id(pdf) |