Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation

要約

オブジェクトとゴールのナビゲーションは、身体的ナビゲーションのコミュニティにとって重要なエンジニアリング作業です。
これには、目に見えない環境内で指定されたオブジェクト カテゴリのインスタンスに移動することが含まれます。
エンドツーエンドおよびモジュールベースのデータ駆動型アプローチの両方について広範な調査が行われてきましたが、エージェントが知覚知識を通じて環境を理解し、人間と同じように効率的にオブジェクトと目標のナビゲーションを実行できるようにすることは、依然として大きな課題です。
最近、大規模な言語モデルは、知識の抽出と統合のための強力な機能のおかげで、このタスクでの可能性を示しています。
この研究では、大規模な言語モデルから抽出された物体と部屋の関係に関する常識的な知識を組み込んだデータセットでトレーニングされた、データ駆動型のモジュールベースのアプローチを提案します。
マルチチャネル Swin-Unet アーキテクチャを利用して、マルチモーダル入力を組み込んだマルチタスク学習を実行します。
ハビタット シミュレーターの結果は、私たちのフレームワークが、パス長によって重み付けされた成功 (SPL) という効率指標において、ベースラインを平均 10.6% 上回っていることを示しています。
実際のデモンストレーションは、提案されたアプローチが複数の部屋を横断することでこのタスクを効率的に実行できることを示しています。
詳細と実際のデモンストレーションについては、プロジェクトの Web ページ (https://sunleyuan.github.io/ObjectNav) をご覧ください。

要約(オリジナル)

Object-goal navigation is a crucial engineering task for the community of embodied navigation; it involves navigating to an instance of a specified object category within unseen environments. Although extensive investigations have been conducted on both end-to-end and modular-based, data-driven approaches, fully enabling an agent to comprehend the environment through perceptual knowledge and perform object-goal navigation as efficiently as humans remains a significant challenge. Recently, large language models have shown potential in this task, thanks to their powerful capabilities for knowledge extraction and integration. In this study, we propose a data-driven, modular-based approach, trained on a dataset that incorporates common-sense knowledge of object-to-room relationships extracted from a large language model. We utilize the multi-channel Swin-Unet architecture to conduct multi-task learning incorporating with multimodal inputs. The results in the Habitat simulator demonstrate that our framework outperforms the baseline by an average of 10.6% in the efficiency metric, Success weighted by Path Length (SPL). The real-world demonstration shows that the proposed approach can efficiently conduct this task by traversing several rooms. For more details and real-world demonstrations, please check our project webpage (https://sunleyuan.github.io/ObjectNav).

arxiv情報

著者 Leyuan Sun,Asako Kanezaki,Guillaume Caron,Yusuke Yoshiyasu
発行日 2024-03-21 06:32:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク