要約
この研究では、マルチスケールの CLIP (Contrastive Language-Image Pre-Training) 機能を 3D マップにオンラインで埋め込むための新しいアプローチを紹介します。
CLIP を利用することにより、この方法論は従来の語彙が制限された方法の制約を超え、結果として得られるマップに意味情報を組み込むことができます。
最近のアプローチでは、地図へのマルチモーダル フィーチャの埋め込みが検討されていますが、多くの場合、多大な計算コストがかかり、不慣れな環境をリアルタイムで探索する実用性に欠けています。
私たちのアプローチは、マルチスケールの CLIP 特徴を効率的に計算して埋め込むことでこれらの課題に取り組み、それによってリアルタイムのマップ生成を通じて未知の環境の探索を容易にします。
さらに、結果のマップに CLIP 機能を埋め込むことで、言語クエリによるオフライン検索が可能になります。
本質的に、私たちのアプローチは、リアルタイムのオブジェクト検索と不慣れな環境のマッピングを同時に実現します。
さらに、マッピングアプローチに基づいたゼロショットオブジェクト-ゴールナビゲーションシステムを提案し、シミュレーション環境と実際のロボット実験の両方で、オブジェクト-ゴールナビゲーション、オフラインオブジェクト検索、およびマルチオブジェクト-ゴールナビゲーションを通じてその有効性を検証します。
この調査結果は、私たちの方法が最先端のマッピング方法よりも高速なパフォーマンスを示すだけでなく、オブジェクトとゴールのナビゲーションタスクの成功率の点でもそれらを上回っていることを示しています。
要約(オリジナル)
This study introduces a novel approach to online embedding of multi-scale CLIP (Contrastive Language-Image Pre-Training) features into 3D maps. By harnessing CLIP, this methodology surpasses the constraints of conventional vocabulary-limited methods and enables the incorporation of semantic information into the resultant maps. While recent approaches have explored the embedding of multi-modal features in maps, they often impose significant computational costs, lacking practicality for exploring unfamiliar environments in real time. Our approach tackles these challenges by efficiently computing and embedding multi-scale CLIP features, thereby facilitating the exploration of unfamiliar environments through real-time map generation. Moreover, the embedding CLIP features into the resultant maps makes offline retrieval via linguistic queries feasible. In essence, our approach simultaneously achieves real-time object search and mapping of unfamiliar environments. Additionally, we propose a zero-shot object-goal navigation system based on our mapping approach, and we validate its efficacy through object-goal navigation, offline object retrieval, and multi-object-goal navigation in both simulated environments and real robot experiments. The findings demonstrate that our method not only exhibits swifter performance than state-of-the-art mapping methods but also surpasses them in terms of the success rate of object-goal navigation tasks.
arxiv情報
著者 | Shun Taguchi,Hideki Deguchi |
発行日 | 2024-03-27 01:12:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google