要約
この論文では、言語埋め込み 3D ガウシアンと大規模言語モデル (LLM) を組み合わせて推論を強化することにより、自動運転におけるオープン語彙の 3D シーンを理解するための新しい方法を紹介します。
私たちは、LLM を利用して、セグメンテーションとシーン解釈のために文脈的に関連する標準フレーズを生成することを提案します。
私たちの方法では、LLM のコンテキスト機能と意味論的な機能を活用して、一連の標準的なフレーズを生成し、それを 3D ガウス分布に埋め込まれた言語機能と比較します。
この LLM ガイドのアプローチにより、最も困難な環境や不慣れな環境であっても、ゼロショット シーンの理解と対象オブジェクトの検出が大幅に向上します。
WayveScenes101 データセットの実験結果は、私たちのアプローチが、オープン語彙オブジェクトの検出とセグメンテーションの精度と柔軟性の点で最先端の方法を超えていることを示しています。
この取り組みは、よりインテリジェントでコンテキスト認識型の自動運転システムに向けた大幅な進歩を表しており、3D シーン表現と高レベルのセマンティック理解を効果的に橋渡しします。
要約(オリジナル)
This paper introduces a novel method for open-vocabulary 3D scene understanding in autonomous driving by combining Language Embedded 3D Gaussians with Large Language Models (LLMs) for enhanced inference. We propose utilizing LLMs to generate contextually relevant canonical phrases for segmentation and scene interpretation. Our method leverages the contextual and semantic capabilities of LLMs to produce a set of canonical phrases, which are then compared with the language features embedded in the 3D Gaussians. This LLM-guided approach significantly improves zero-shot scene understanding and detection of objects of interest, even in the most challenging or unfamiliar environments. Experimental results on the WayveScenes101 dataset demonstrate that our approach surpasses state-of-the-art methods in terms of accuracy and flexibility for open-vocabulary object detection and segmentation. This work represents a significant advancement towards more intelligent, context-aware autonomous driving systems, effectively bridging 3D scene representation with high-level semantic understanding.
arxiv情報
| 著者 | Amirhosein Chahe,Lifeng Zhou |
| 発行日 | 2024-08-07 02:54:43+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google