要約
さまざまなモダリティからの画像が特徴抽出のための独自の情報を提供するため、マルチモーダル フュージョンは自動運転タスクに使用されることが増えています。
ただし、既存の 2 ストリーム ネットワークは特定のネットワーク層でのみ融合されているため、セットアップには多くの手動試行が必要です。
CNN が深くなるにつれて、2 つのモーダル機能はますます高度かつ抽象的になり、大きなギャップのある機能レベルで融合が発生し、パフォーマンスが容易に低下する可能性があります。
本研究では、特定の融合エポックに束縛されることなく、LiDAR点群とカメラ画像を適応的に組み合わせるスキップクロスネットワーク(SkipcrossNets)と呼ばれる新しい融合アーキテクチャを提案します。
具体的には、スキップクロスはフィードフォワード方式で各層を各層に接続し、各層では、前のすべての層の特徴マップが入力として使用され、その独自の特徴マップが他のすべての後続層への入力として使用されます。
モダリティ、特徴伝播とマルチモーダル特徴融合の強化。
この戦略により、2 つのデータ パイプラインから最も類似したフィーチャ レイヤーの選択が容易になり、融合プロセス中に疎な点群フィーチャに補完的な効果がもたらされます。
また、ネットワークは、特徴融合の複雑さとモデル パラメーターの数を軽減するために、いくつかのブロックに分割されています。
スキップクロスフュージョンの利点は、KITTI および A2D2 データセットへの適用を通じて実証され、KITTI で 96.85% の MaxF スコア、A2D2 で 84.84% の F1 スコアを達成しました。
モデル パラメーターは 68.24 FPS の速度で 2.33 MB のメモリのみを必要とし、これはモバイル端末や組み込みデバイスで実行可能です。
要約(オリジナル)
Multi-modal fusion is increasingly being used for autonomous driving tasks, as images from different modalities provide unique information for feature extraction. However, the existing two-stream networks are only fused at a specific network layer, which requires a lot of manual attempts to set up. As the CNN goes deeper, the two modal features become more and more advanced and abstract, and the fusion occurs at the feature level with a large gap, which can easily hurt the performance. In this study, we propose a novel fusion architecture called skip-cross networks (SkipcrossNets), which combines adaptively LiDAR point clouds and camera images without being bound to a certain fusion epoch. Specifically, skip-cross connects each layer to each layer in a feed-forward manner, and for each layer, the feature maps of all previous layers are used as input and its own feature maps are used as input to all subsequent layers for the other modality, enhancing feature propagation and multi-modal features fusion. This strategy facilitates selection of the most similar feature layers from two data pipelines, providing a complementary effect for sparse point cloud features during fusion processes. The network is also divided into several blocks to reduce the complexity of feature fusion and the number of model parameters. The advantages of skip-cross fusion were demonstrated through application to the KITTI and A2D2 datasets, achieving a MaxF score of 96.85% on KITTI and an F1 score of 84.84% on A2D2. The model parameters required only 2.33 MB of memory at a speed of 68.24 FPS, which could be viable for mobile terminals and embedded devices.
arxiv情報
著者 | Xinyu Zhang,Yan Gong,Zhiwei Li,Xin Gao,Dafeng Jin,Jun Li,Huaping Liu |
発行日 | 2023-08-24 15:34:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google