Improving Zero-Shot ObjectNav with Generative Communication

要約

我々は、潜在的に利用可能な環境認識をナビゲーション支援に利用することを目的とした、ゼロショット ObjectNav を改善するための新しい方法を提案します。
私たちのアプローチでは、地上職員の視界が制限され、場合によっては視界が遮られる可能性があることを考慮しています。
私たちの定式化は、ターゲット オブジェクトを含むグローバル ビューを持つ支援オーバーヘッド エージェントと難読化されたビューを持つ地上エージェント間の生成コミュニケーション (GC) を促進します。
どちらも、視覚から言語への翻訳のための視覚言語モデル (VLM) を備えています。
この支援セットアップでは、地上エージェントがターゲットに向かってアクションを実行する前に、実体エージェントが環境情報を通信します。
オーバーヘッドエージェントがターゲットに対して全体的な視野を持っているにもかかわらず、完全に協力的な支援スキームのパフォーマンスが、支援なしのベースラインと比較して低下していることに注目します(OSRで-13%、SPLで-13%)。
対照的に、地上エージェントが独立した探索行動を維持する選択的支援スキームでは、10% の OSR と 7.65% の SPL の改善が示されています。
ナビゲーションのパフォーマンスを説明するために、GC の固有の特性を分析し、幻覚と協力の存在を定量化します。
具体的には、具体化された設定における先制幻覚の新しい言語的特徴を特定し、地上エージェントがまだ移動していないときに地上エージェントが対話でアクションを実行したと頭上エージェントが想定し、そのナビゲーションパフォーマンスとの強い相関関係に注目します。
私たちは実際の実験を実施し、ObjectNav のパフォーマンスを向上させるための迅速な微調整によって幻覚を軽減する定性的な例をいくつか紹介します。

要約(オリジナル)

We propose a new method for improving zero-shot ObjectNav that aims to utilize potentially available environmental percepts for navigational assistance. Our approach takes into account that the ground agent may have limited and sometimes obstructed view. Our formulation encourages Generative Communication (GC) between an assistive overhead agent with a global view containing the target object and the ground agent with an obfuscated view; both equipped with Vision-Language Models (VLMs) for vision-to-language translation. In this assisted setup, the embodied agents communicate environmental information before the ground agent executes actions towards a target. Despite the overhead agent having a global view with the target, we note a drop in performance (-13% in OSR and -13% in SPL) of a fully cooperative assistance scheme over an unassisted baseline. In contrast, a selective assistance scheme where the ground agent retains its independent exploratory behaviour shows a 10% OSR and 7.65% SPL improvement. To explain navigation performance, we analyze the GC for unique traits, quantifying the presence of hallucination and cooperation. Specifically, we identify the novel linguistic trait of preemptive hallucination in our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move, and note its strong correlation with navigation performance. We conduct real-world experiments and present some qualitative examples where we mitigate hallucinations via prompt finetuning to improve ObjectNav performance.

arxiv情報

著者 Vishnu Sashank Dorbala,Vishnu Dutt Sharma,Pratap Tokekar,Dinesh Manocha
発行日 2024-10-02 01:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク