LiLMaps: Learnable Implicit Language Maps

要約

ロボット工学の現在のトレンドの 1 つは、大規模言語モデル (LLM) を採用して、事前定義されていないコマンドの実行と人間とロボットの自然な対話を提供することです。
環境マップとその言語表現を一緒に持つと便利で、LLM でさらに利用できます。
このような包括的なシーン表現により、自律的に動作するロボットのマップとの対話のさまざまな方法が可能になります。
この研究では、ビジョン言語機能の統合を通じて増分暗黙的マッピングを強化するアプローチを紹介します。
具体的には、(i) 新しいオブジェクトがシーンに現れたときに使用できる暗黙的な言語マップのデコーダ最適化手法を提案し、(ii) 異なる観察位置間で一貫性のない視覚言語予測の問題に対処します。
私たちの実験では、LiLMaps の有効性とパフォーマンスの確かな向上を実証しています。

要約(オリジナル)

One of the current trends in robotics is to employ large language models (LLMs) to provide non-predefined command execution and natural human-robot interaction. It is useful to have an environment map together with its language representation, which can be further utilized by LLMs. Such a comprehensive scene representation enables numerous ways of interaction with the map for autonomously operating robots. In this work, we present an approach that enhances incremental implicit mapping through the integration of vision-language features. Specifically, we (i) propose a decoder optimization technique for implicit language maps which can be used when new objects appear on the scene, and (ii) address the problem of inconsistent vision-language predictions between different viewing positions. Our experiments demonstrate the effectiveness of LiLMaps and solid improvements in performance.

arxiv情報

著者 Evgenii Kruzhkov,Sven Behnke
発行日 2025-01-06 16:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク