Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues

要約

言語駆動型のインスタンスオブジェクトナビゲーションは、具体化されたエージェントにターゲットインスタンスの詳細な説明を提供することにより、人間のユーザーがタスクを開始することを前提としています。
この説明は、ターゲットをシーン内の視覚的に類似したインスタンスと区別するために重要ですが、ナビゲーションが人間に要求される前にそれを提供することができます。
このギャップを埋めるために、コラボレーティブインスタンスオブジェクトナビゲーション(COIN)を紹介します。これは、エージェントが人間との自然なテンプレートのないオープンエンドの対話でナビゲーション中にターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定です。
ナビゲーションポリシーから独立して動作する不確実性の認識(AIUTA)とのエージェントユーザーの相互作用、ビジョン言語モデル(VLMS)および大手言語モデル(LLM)との人間エージェント相互作用の推論に焦点を当てている新しいトレーニングなしの方法、エージェントユーザーの相互作用を提案します。
第一に、オブジェクトの検出時に、自己質問者モデルは、エージェント内の自己学者を開始し、新しい不確実性推定手法で完全かつ正確な観察記述を取得します。
次に、インタラクショントリガーモジュールは、ユーザーの入力を最小限に抑え、ナビゲーションを継続または停止するかどうかを確認するか、ユーザーの入力を最小限に抑えるかを決定します。
評価のために、マルチインスタンスシナリオに挑戦するために設計されたキュレーションされたデータセットを使用して、コインベンチを紹介します。
Coin-Benchは、人間とのオンライン評価と、シミュレートされたユーザーエージェントインタラクションによる再現可能な実験の両方をサポートしています。
コインベンチでは、Aiutaが競争の激しいベースラインとして機能し、既存の言語主導のインスタンスナビゲーション方法が複雑なマルチインスタンスシーンで闘っていることを示します。
コードとベンチマークは、https://intelligolabs.github.io/coin/で受け入れられると利用可能になります。

要約(オリジナル)

Language-driven instance object navigation assumes that human users initiate the task by providing a detailed description of the target instance to the embodied agent. While this description is crucial for distinguishing the target from visually similar instances in a scene, providing it prior to navigation can be demanding for human. To bridge this gap, we introduce Collaborative Instance object Navigation (CoIN), a new task setting where the agent actively resolve uncertainties about the target instance during navigation in natural, template-free, open-ended dialogues with human. We propose a novel training-free method, Agent-user Interaction with UncerTainty Awareness (AIUTA), which operates independently from the navigation policy, and focuses on the human-agent interaction reasoning with Vision-Language Models (VLMs) and Large Language Models (LLMs). First, upon object detection, a Self-Questioner model initiates a self-dialogue within the agent to obtain a complete and accurate observation description with a novel uncertainty estimation technique. Then, an Interaction Trigger module determines whether to ask a question to the human, continue or halt navigation, minimizing user input. For evaluation, we introduce CoIN-Bench, with a curated dataset designed for challenging multi-instance scenarios. CoIN-Bench supports both online evaluation with humans and reproducible experiments with simulated user-agent interactions. On CoIN-Bench, we show that AIUTA serves as a competitive baseline, while existing language-driven instance navigation methods struggle in complex multi-instance scenes. Code and benchmark will be available upon acceptance at https://intelligolabs.github.io/CoIN/

arxiv情報

著者 Francesco Taioli,Edoardo Zorzi,Gianni Franchi,Alberto Castellini,Alessandro Farinelli,Marco Cristani,Yiming Wang
発行日 2025-03-18 16:09:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク