InfraParis: A multi-modal and multi-task autonomous driving dataset

要約

自動運転コンピューター ビジョン用の現在のディープ ニューラル ネットワーク (DNN) は通常、単一タイプのデータと都市シーンのみを含む特定のデータセットでトレーニングされます。
その結果、これらのモデルは、安全性が重要なアプリケーションに不可欠な、新しい物体、騒音、夜間条件、および多様なシナリオに対処するのに苦労しています。
コンピューター ビジョン DNN の復元力を強化するための継続的な取り組みにもかかわらず、複数のモダリティを特徴とするベンチマークが存在しないこともあり、進歩は鈍化しています。
RGB、深度、赤外線という 3 つのモダリティにわたる複数のタスクをサポートする、InfraParis という名前の斬新で汎用性の高いデータセットを紹介します。
私たちは、セマンティック セグメンテーション、オブジェクト検出、深度推定のタスク用のモデルを含む、さまざまな最先端のベースライン技術を評価します。

要約(オリジナル)

Current deep neural networks (DNNs) for autonomous driving computer vision are typically trained on specific datasets that only involve a single type of data and urban scenes. Consequently, these models struggle to handle new objects, noise, nighttime conditions, and diverse scenarios, which is essential for safety-critical applications. Despite ongoing efforts to enhance the resilience of computer vision DNNs, progress has been sluggish, partly due to the absence of benchmarks featuring multiple modalities. We introduce a novel and versatile dataset named InfraParis that supports multiple tasks across three modalities: RGB, depth, and infrared. We assess various state-of-the-art baseline techniques, encompassing models for the tasks of semantic segmentation, object detection, and depth estimation.

arxiv情報

著者 Gianni Franchi,Marwane Hariat,Xuanlong Yu,Nacim Belkhir,Antoine Manzanera,David Filliat
発行日 2023-09-27 16:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク