要約
リアルタイムのセマンティック セグメンテーションは、現実世界のアプリケーションにとって重要な研究です。
ただし、多くの方法は、精度を大幅に犠牲にしながら、計算の複雑さとモデルのサイズを軽減することに特に重点を置いています。
この問題に取り組むために、速度と精度の間で適切なトレードオフを達成するために、セマンティック セグメンテーション タスク用にカスタマイズされた並列推論ネットワークを提案します。
リアルタイム速度を確保するために浅いバックボーンを採用し、精度を向上させるために減少したモデル容量を補うために 3 つのコア コンポーネントを提案します。
具体的には、まず、エンコーダから各スケールまでマルチレベルの特徴を集約するためのデュアル ピラミッド パス アーキテクチャ (マルチレベル特徴集約モジュール、MFAM) を設計し、その後の空間アライメントと対応するネットワーク内推論のための階層的な手がかりを提供します。
次に、フローベースのアライメント モジュールと再帰的アップサンプリング アーキテクチャを組み合わせて再帰的アライメント モジュール (RAM) を構築し、単純なアライメント手法の半分の計算量でマルチスケール フィーチャ マップ間の正確な空間アライメントを実現します。
最後に、位置合わせされた特徴に対して独立した並列推論を実行してマルチスケール スコアを取得し、アテンションベースの適応スコア融合モジュール (ASFM) を通じてそれらを適応的に融合して、最終的な予測が複数のスケールのオブジェクトに有利になるようにします。
私たちのフレームワークは、Cityscapes や CamVid データセットにおける最先端のリアルタイム手法よりも速度と精度のバランスが優れています。
また、私たちの動機と構造設計についての洞察を得るために、体系的なアブレーション研究も実施しました。
コードは https://github.com/Yanhua-Zhang/MFARANet から入手できます。
要約(オリジナル)
Real-time semantic segmentation is a crucial research for real-world applications. However, many methods lay particular emphasis on reducing the computational complexity and model size, while largely sacrificing the accuracy. To tackle this problem, we propose a parallel inference network customized for semantic segmentation tasks to achieve a good trade-off between speed and accuracy. We employ a shallow backbone to ensure real-time speed, and propose three core components to compensate for the reduced model capacity to improve accuracy. Specifically, we first design a dual-pyramidal path architecture (Multi-level Feature Aggregation Module, MFAM) to aggregate multi-level features from the encoder to each scale, providing hierarchical clues for subsequent spatial alignment and corresponding in-network inference. Then, we build Recursive Alignment Module (RAM) by combining the flow-based alignment module with recursive upsampling architecture for accurate spatial alignment between multi-scale feature maps with half the computational complexity of the straightforward alignment method. Finally, we perform independent parallel inference on the aligned features to obtain multi-scale scores, and adaptively fuse them through an attention-based Adaptive Scores Fusion Module (ASFM) so that the final prediction can favor objects of multiple scales. Our framework shows a better balance between speed and accuracy than state-of-the-art real-time methods on Cityscapes and CamVid datasets. We also conducted systematic ablation studies to gain insight into our motivation and architectural design. Code is available at: https://github.com/Yanhua-Zhang/MFARANet.
arxiv情報
著者 | Yanhua Zhang,Ke Zhang,Jingyu Wang,Yulin Wu,Wuwei Wang |
発行日 | 2024-04-18 13:33:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google