要約
このペーパーでは、大規模マルチモーダル モデル (LMM) を広大な 3D 環境に拡張するという課題について説明します。
この未解決の問題を解決することは、広大な空間をカバーする捜索救助ミッションなど、多くの初動対応シナリオにおけるロボットの配備に特に関連します。
これらの設定での LMM の使用は、現在、LMM の入力サイズを制限する厳密なコンテキスト ウィンドウによって妨げられています。
そこで、データグラフ構造を利用した新しいアプローチを導入します。これにより、LMM は大規模な環境のより小さなセクションを繰り返しクエリできるようになります。
データグラフをグラフ トラバーサル アルゴリズムと組み合わせて使用すると、クエリに最も関連性の高い場所に優先順位を付けることができ、それによって 3D シーン言語タスクのスケーラビリティが向上します。
3D シーンを使用してデータグラフを説明しますが、これらは、点群やガウス スプラットなど、環境を表す他の高密度モダリティで簡単に置き換えることができます。
捜索救助ミッションの例で、2 つの 3D シーン言語タスクのユースケースにデータグラフを使用できる可能性を示します。
要約(オリジナル)
This paper addresses the challenge of scaling Large Multimodal Models (LMMs) to expansive 3D environments. Solving this open problem is especially relevant for robot deployment in many first-responder scenarios, such as search-and-rescue missions that cover vast spaces. The use of LMMs in these settings is currently hampered by the strict context windows that limit the LMM’s input size. We therefore introduce a novel approach that utilizes a datagraph structure, which allows the LMM to iteratively query smaller sections of a large environment. Using the datagraph in conjunction with graph traversal algorithms, we can prioritize the most relevant locations to the query, thereby improving the scalability of 3D scene language tasks. We illustrate the datagraph using 3D scenes, but these can be easily substituted by other dense modalities that represent the environment, such as pointclouds or Gaussian splats. We demonstrate the potential to use the datagraph for two 3D scene language task use cases, in a search-and-rescue mission example.
arxiv情報
著者 | W. J. Meijer,A. C. Kemmeren,E. H. J. Riemens,J. E. Fransman,M. van Bekkum,G. J. Burghouts,J. D. van Mil |
発行日 | 2024-07-15 14:16:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google