要約
悪天候や照明条件の下で堅牢で正確な空間認識を達成することは、自動運転車やロボットの高レベルの自律性にとって重要です。
ただし、可視スペクトルに依存する既存の知覚アルゴリズムは、天候や照明の状態に大きく影響を受けます。
長波赤外線カメラ(つまり、サーマルイメージングカメラ)は、高レベルの堅牢性を実現するための潜在的なソリューションになります。
ただし、大規模なデータセットと標準化されたベンチマークがないことは、熱画像からの堅牢な視覚的知覚のための積極的な研究の進行に重要なボトルネックのままです。
この目的のために、この原稿は、ステレオRGB、ステレオNIR、ステレオサーマル、ステレオライダーデータ、およびGNSS/IMU情報で構成される大規模なマルチスペクトルステレオ(MS $^2 $)データセットを提供します。
MS $^2 $データセットには、さまざまな時期(朝、昼間、昼間、昼間、昼間、昼間、昼間、昼間、昼間、昼間など)(例えば、透明なスキー、曇り、雨が降る)で、多様な場所(例:都市、居住地域、キャンパス、高速道路など)でキャプチャされた162kの同期マルチモーダルデータペアが含まれています。
第二に、RGB、NIR、および熱モダリティ全体の単眼およびステレオ深度推定ネットワークの徹底的な評価を実施して、MS $^2 $深度テストセット(昼、夜、雨など)の標準化されたベンチマーク結果を確立します。
最後に、詳細な分析を提供し、有害条件下での各モダリティのパフォーマンスの変動、異なるセンサーモダリティ間のドメインシフト、熱知覚の潜在的な研究方向など、ベンチマーク結果によって明らかにされた課題について説明します。
データセットとソースコードは、https://sites.google.com/view/multi-spectral-stereo-datasetおよびhttps://github.com/ukcheolshin/supdepth4thermalで公開されています。
要約(オリジナル)
Achieving robust and accurate spatial perception under adverse weather and lighting conditions is crucial for the high-level autonomy of self-driving vehicles and robots. However, existing perception algorithms relying on the visible spectrum are highly affected by weather and lighting conditions. A long-wave infrared camera (i.e., thermal imaging camera) can be a potential solution to achieve high-level robustness. However, the absence of large-scale datasets and standardized benchmarks remains a significant bottleneck to progress in active research for robust visual perception from thermal images. To this end, this manuscript provides a large-scale Multi-Spectral Stereo (MS$^2$) dataset that consists of stereo RGB, stereo NIR, stereo thermal, stereo LiDAR data, and GNSS/IMU information along with semi-dense depth ground truth. MS$^2$ dataset includes 162K synchronized multi-modal data pairs captured across diverse locations (e.g., urban city, residential area, campus, and high-way road) at different times (e.g., morning, daytime, and nighttime) and under various weather conditions (e.g., clear-sky, cloudy, and rainy). Secondly, we conduct a thorough evaluation of monocular and stereo depth estimation networks across RGB, NIR, and thermal modalities to establish standardized benchmark results on MS$^2$ depth test sets (e.g., day, night, and rainy). Lastly, we provide in-depth analyses and discuss the challenges revealed by the benchmark results, such as the performance variability for each modality under adverse conditions, domain shift between different sensor modalities, and potential research direction for thermal perception. Our dataset and source code are publicly available at https://sites.google.com/view/multi-spectral-stereo-dataset and https://github.com/UkcheolShin/SupDepth4Thermal.
arxiv情報
著者 | Ukcheol Shin,Jinsun Park |
発行日 | 2025-03-28 00:46:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google