要約
ゼロショット オブジェクト ゴール ナビゲーション (ZS-OGN) における意味理解を促進する革新的なアプローチを導入し、不慣れな環境におけるロボットの自律性を強化します。
従来のラベル付きデータへの依存はロボットの適応性の制限でしたが、私たちは初期検出用の GLIP Vision Language Model と検証用の struct BLIP モデルを統合するデュアルコンポーネント フレームワークを採用することでこの問題に対処しました。
この組み合わせは、物体と環境の認識を洗練するだけでなく、ナビゲーション上の意思決定にとって極めて重要な意味解釈を強化します。
私たちの方法は、シミュレーション設定と現実世界の設定の両方で厳密にテストされており、ナビゲーションの精度と信頼性が大幅に向上しています。
要約(オリジナル)
We introduce an innovative approach to advancing semantic understanding in zero-shot object goal navigation (ZS-OGN), enhancing the autonomy of robots in unfamiliar environments. Traditional reliance on labeled data has been a limitation for robotic adaptability, which we address by employing a dual-component framework that integrates a GLIP Vision Language Model for initial detection and an InstructionBLIP model for validation. This combination not only refines object and environmental recognition but also fortifies the semantic interpretation, pivotal for navigational decision-making. Our method, rigorously tested in both simulated and real-world settings, exhibits marked improvements in navigation precision and reliability.
arxiv情報
著者 | Halil Utku Unlu,Shuaihang Yuan,Congcong Wen,Hao Huang,Anthony Tzes,Yi Fang |
発行日 | 2024-10-29 10:37:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google