要約
ディープ畳み込みニューラル ネットワークの最近の進歩は、道路シーンの解析の分野で大きな可能性を示しています。
それにもかかわらず、既存の研究は主に自由空間の検出に焦点を当てており、運転の安全性と快適性の両方を損なう可能性のある危険な道路の欠陥にはほとんど注意が払われていません。
この論文では、道路シーンの解析のために開発された新しい Transformer ベースのデータ融合ネットワークである RoadFormer を紹介します。
RoadFormer は二重エンコーダ アーキテクチャを利用して、RGB 画像と表面法線情報の両方から異種の特徴を抽出します。
エンコードされた特徴は、その後、効果的な特徴融合と再調整のために新しい異種特徴シナジー ブロックに供給されます。
次に、ピクセル デコーダは、融合および再調整された異種特徴からマルチスケールの長距離依存関係を学習し、その後、Transformer デコーダによって処理されて、最終的なセマンティック予測が生成されます。
さらに、SYN-UDTIRI をリリースします。これは、10,407 を超える RGB 画像、高密度深度画像、およびさまざまな形状とサイズのフリースペースと道路の欠陥の両方に対応するピクセルレベルの注釈を含む、初の大規模な道路シーン解析データセットです。
当社の SYN-UDTIRI データセットと、KITTI 道路、CityScapes、ORFD を含む 3 つの公開データセットに対して行われた広範な実験評価により、RoadFormer が道路シーン解析において他のすべての最先端ネットワークよりも優れていることが実証されました。
具体的には、RoadFormer は KITTI 道路ベンチマークで 1 位にランクされています。
私たちのソース コード、作成されたデータセット、デモ ビデオは、mias.group/RoadFormer で公開されています。
要約(オリジナル)
The recent advancements in deep convolutional neural networks have shown significant promise in the domain of road scene parsing. Nevertheless, the existing works focus primarily on freespace detection, with little attention given to hazardous road defects that could compromise both driving safety and comfort. In this paper, we introduce RoadFormer, a novel Transformer-based data-fusion network developed for road scene parsing. RoadFormer utilizes a duplex encoder architecture to extract heterogeneous features from both RGB images and surface normal information. The encoded features are subsequently fed into a novel heterogeneous feature synergy block for effective feature fusion and recalibration. The pixel decoder then learns multi-scale long-range dependencies from the fused and recalibrated heterogeneous features, which are subsequently processed by a Transformer decoder to produce the final semantic prediction. Additionally, we release SYN-UDTIRI, the first large-scale road scene parsing dataset that contains over 10,407 RGB images, dense depth images, and the corresponding pixel-level annotations for both freespace and road defects of different shapes and sizes. Extensive experimental evaluations conducted on our SYN-UDTIRI dataset, as well as on three public datasets, including KITTI road, CityScapes, and ORFD, demonstrate that RoadFormer outperforms all other state-of-the-art networks for road scene parsing. Specifically, RoadFormer ranks first on the KITTI road benchmark. Our source code, created dataset, and demo video are publicly available at mias.group/RoadFormer.
arxiv情報
著者 | Jiahang Li,Yikang Zhang,Peng Yun,Guangliang Zhou,Qijun Chen,Rui Fan |
発行日 | 2024-07-01 06:01:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google