Multimodal Perception for Goal-oriented Navigation: A Survey

要約

目標指向のナビゲーションは、自律システムにとって基本的な課題であり、エージェントが指定されたターゲットに到達するために複雑な環境をナビゲートすることを要求します。
この調査では、推論ドメインの統一された視点を介したマルチモーダルナビゲーションアプローチの包括的な分析を提供し、視覚的、言語的、音響情報を使用して環境を知覚、推論、ナビゲートする方法を調査します。
私たちの重要な貢献には、推論ドメイン全体の主要な環境推論メカニズムに基づいたナビゲーション方法の整理が含まれます。
共有された計算基盤が、さまざまなナビゲーションタスクで一見異なるアプローチをサポートする方法を体系的に分析します。
さまざまなナビゲーションパラダイムにわたる繰り返しのパターンと特徴的な強度の識別。
マルチモーダル認識の統合の課題と機会を調べて、ナビゲーション機能を強化します。
さらに、約200の関連記事を確認して、現在の景観を詳細に理解します。

要約(オリジナル)

Goal-oriented navigation presents a fundamental challenge for autonomous systems, requiring agents to navigate complex environments to reach designated targets. This survey offers a comprehensive analysis of multimodal navigation approaches through the unifying perspective of inference domains, exploring how agents perceive, reason about, and navigate environments using visual, linguistic, and acoustic information. Our key contributions include organizing navigation methods based on their primary environmental reasoning mechanisms across inference domains; systematically analyzing how shared computational foundations support seemingly disparate approaches across different navigation tasks; identifying recurring patterns and distinctive strengths across various navigation paradigms; and examining the integration challenges and opportunities of multimodal perception to enhance navigation capabilities. In addition, we review approximately 200 relevant articles to provide an in-depth understanding of the current landscape.

arxiv情報

著者 I-Tak Ieong,Hao Tang
発行日 2025-04-22 07:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク