Open 3D World in Autonomous Driving

要約

オープンな語彙認識機能は自動運転システムの大幅な進歩を表しており、リアルタイムでの幅広いテキスト入力の理解と解釈が容易になります。
2D コンピュータ ビジョン内のオープンボキャブラリー タスクに関する広範な研究にもかかわらず、そのような方法論の 3D 環境への適用、特に大規模な屋外コンテキスト内での適用は、比較的未開発のままです。
この論文では、LIDAR センサーから取得した 3D 点群データとテキスト情報を統合する新しいアプローチを紹介します。
主な焦点は、自動運転コンテキスト内でオブジェクトの位置を直接特定し、識別するためのテキスト データの利用です。
鳥瞰図 (BEV) 領域の特徴とテキストの特徴を融合するための効率的なフレームワークを導入します。これにより、システムが新しいテキスト入力にシームレスに適応できるようになり、公開語彙検出タスクの堅牢性が向上します。
提案された方法論の有効性は、新しく導入された NuScenes-T データセットでの広範な実験を通じて厳密に評価され、Lyft レベル 5 データセットでのゼロショット パフォーマンスの追加検証も行われます。
この研究は、マルチモーダルデータを活用して 3D 環境におけるオープンボキャブラリーの認識を強化し、それによって自律ナビゲーションと認識で達成可能な限界を押し上げることにより、自動運転技術の進歩に実質的に貢献します。

要約(オリジナル)

The capability for open vocabulary perception represents a significant advancement in autonomous driving systems, facilitating the comprehension and interpretation of a wide array of textual inputs in real-time. Despite extensive research in open vocabulary tasks within 2D computer vision, the application of such methodologies to 3D environments, particularly within large-scale outdoor contexts, remains relatively underdeveloped. This paper presents a novel approach that integrates 3D point cloud data, acquired from LIDAR sensors, with textual information. The primary focus is on the utilization of textual data to directly localize and identify objects within the autonomous driving context. We introduce an efficient framework for the fusion of bird’s-eye view (BEV) region features with textual features, thereby enabling the system to seamlessly adapt to novel textual inputs and enhancing the robustness of open vocabulary detection tasks. The effectiveness of the proposed methodology is rigorously evaluated through extensive experimentation on the newly introduced NuScenes-T dataset, with additional validation of its zero-shot performance on the Lyft Level 5 dataset. This research makes a substantive contribution to the advancement of autonomous driving technologies by leveraging multimodal data to enhance open vocabulary perception in 3D environments, thereby pushing the boundaries of what is achievable in autonomous navigation and perception.

arxiv情報

著者 Xinlong Cheng,Lei Li
発行日 2024-08-20 14:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク