要約
レーントポロジ抽出には、車線と交通要素を検出し、その関係を決定することが含まれます。これは、地図のない自律運転の重要な知覚タスクです。
このタスクには、左折することが可能かどうかを判断するなど、複雑な推論が必要です。
この課題に対処するために、Vision-Language Foundation Models(VLMS)を搭載したニューロシンボリック法を紹介します。
既存のアプローチには顕著な制限があります。(1)VLMSによる密度の高い視覚的プロンプトは、財源と二酸化炭素排出量の両方の点でコストがかかるため、ロボット工学アプリケーションでは非現実的です。
(2)3Dシーンの理解のためのニューロシンボリック推論方法は、プログラムを合成するときに視覚入力を統合することができず、複雑なコーナーケースの処理に効果がありません。
この目的のために、Chameleonという名前の高速スローニューロシンボリックレーントポロジ抽出アルゴリズムを提案します。これは、合成プログラムを使用して検出されたインスタンスを直接推論する高速システムと、コーナーケースを処理するためのチェーンデザインでVLMを使用する遅いシステムを直接推論することを交互に交互に交互に行います。
カメレオンは両方のアプローチの強みを活用し、高性能を維持しながら手頃なソリューションを提供します。
OpenLane-V2データセットのメソッドを評価し、さまざまなベースライン検出器にわたって一貫した改善を示します。
私たちのコード、データ、モデルはhttps://github.com/xr-lee/neural-symbolicで公開されています
要約(オリジナル)
Lane topology extraction involves detecting lanes and traffic elements and determining their relationships, a key perception task for mapless autonomous driving. This task requires complex reasoning, such as determining whether it is possible to turn left into a specific lane. To address this challenge, we introduce neuro-symbolic methods powered by vision-language foundation models (VLMs). Existing approaches have notable limitations: (1) Dense visual prompting with VLMs can achieve strong performance but is costly in terms of both financial resources and carbon footprint, making it impractical for robotics applications. (2) Neuro-symbolic reasoning methods for 3D scene understanding fail to integrate visual inputs when synthesizing programs, making them ineffective in handling complex corner cases. To this end, we propose a fast-slow neuro-symbolic lane topology extraction algorithm, named Chameleon, which alternates between a fast system that directly reasons over detected instances using synthesized programs and a slow system that utilizes a VLM with a chain-of-thought design to handle corner cases. Chameleon leverages the strengths of both approaches, providing an affordable solution while maintaining high performance. We evaluate the method on the OpenLane-V2 dataset, showing consistent improvements across various baseline detectors. Our code, data, and models are publicly available at https://github.com/XR-Lee/neural-symbolic
arxiv情報
著者 | Zongzheng Zhang,Xinrun Li,Sizhe Zou,Guoxuan Chi,Siqi Li,Xuchong Qiu,Guoliang Wang,Guantian Zheng,Leichen Wang,Hang Zhao,Hao Zhao |
発行日 | 2025-03-10 16:02:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google