CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs

要約

Object Goal Navigation(ObjectNav)は、具体化されたAIの基本的なタスクであり、エージェントが以前に見えなかった環境でターゲットオブジェクトを見つける必要があります。
このタスクは、オブジェクトの認識や意思決定など、知覚プロセスと認知プロセスの両方を必要とするため、特に困難です。
視覚的基礎モデルの急速な発展によって、認識の実質的な進歩が促進されていますが、認知的側面の進歩は、主にシミュレーターロールアウトによる暗黙の学習または事前定義されたヒューリスティックルールへの明示的な依存のいずれかに限定されています。
人間が新しい環境でのオブジェクト検索タスク中にきめ細かい認知状態を維持し、動的に更新することを実証する神経科学的発見に触発された私たちは、大規模な言語モデルを使用してこの認知プロセスを模倣するように設計されたフレームワークであるCognavを提案します。
具体的には、探査から識別に至るまで、きめ細かい認知状態を含む有限状態マシンを使用して認知プロセスをモデル化します。
状態間の遷移は、動的に構築された不均一な認知マップに基づいた大規模な言語モデルによって決定されます。
HM3D、MP3D、およびRobothorのベンチマークに関する広範な評価は、当社の認知プロセスモデリングにより、ObjectNavの成功率が少なくとも最先端の14%を大幅に改善することを示しています。

要約(オリジナル)

Object goal navigation (ObjectNav) is a fundamental task in embodied AI, requiring an agent to locate a target object in previously unseen environments. This task is particularly challenging because it requires both perceptual and cognitive processes, including object recognition and decision-making. While substantial advancements in perception have been driven by the rapid development of visual foundation models, progress on the cognitive aspect remains constrained, primarily limited to either implicit learning through simulator rollouts or explicit reliance on predefined heuristic rules. Inspired by neuroscientific findings demonstrating that humans maintain and dynamically update fine-grained cognitive states during object search tasks in novel environments, we propose CogNav, a framework designed to mimic this cognitive process using large language models. Specifically, we model the cognitive process using a finite state machine comprising fine-grained cognitive states, ranging from exploration to identification. Transitions between states are determined by a large language model based on a dynamically constructed heterogeneous cognitive map, which contains spatial and semantic information about the scene being explored. Extensive evaluations on the HM3D, MP3D, and RoboTHOR benchmarks demonstrate that our cognitive process modeling significantly improves the success rate of ObjectNav at least by relative 14% over the state-of-the-arts.

arxiv情報

著者 Yihan Cao,Jiazhao Zhang,Zhinan Yu,Shuzhen Liu,Zheng Qin,Qin Zou,Bo Du,Kai Xu
発行日 2025-03-11 12:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2 パーマリンク