CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

要約

モバイル探査はロボット工学における長年の課題ですが、現在の方法は、積極的な相互作用の代わりにアクティブな知覚に主に焦点を当てており、ロボットの環境との相互作用と完全に探索する能力を制限しています。
アクティブな相互作用を介した既存のロボット探査アプローチは、テーブルトップシーンに制限されていることが多く、大規模な探査スペース、複雑なアクションスペース、多様なオブジェクト関係など、モバイル探索によってもたらされる独自の課題を無視します。
この作業では、多様なオブジェクト関係をコードし、アクティブな相互作用を通じて探索を可能にする3Dリレーショナルオブジェクトグラフを導入します。
この表現に基づいてシステムを開発し、多様なシーンで評価します。
当社の定性的および定量的な結果は、システムの有効性と一般化能力を示しており、ビジョン言語モデル(VLM)のみに依存する優れた方法を示しています。

要約(オリジナル)

Mobile exploration is a longstanding challenge in robotics, yet current methods primarily focus on active perception instead of active interaction, limiting the robot’s ability to interact with and fully explore its environment. Existing robotic exploration approaches via active interaction are often restricted to tabletop scenes, neglecting the unique challenges posed by mobile exploration, such as large exploration spaces, complex action spaces, and diverse object relations. In this work, we introduce a 3D relational object graph that encodes diverse object relations and enables exploration through active interaction. We develop a system based on this representation and evaluate it across diverse scenes. Our qualitative and quantitative results demonstrate the system’s effectiveness and generalization capabilities, outperforming methods that rely solely on vision-language models (VLMs).

arxiv情報

著者 Yixuan Wang,Leonor Fermoselle,Tarik Kelestemur,Jiuguang Wang,Yunzhu Li
発行日 2025-01-23 02:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク