Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network

要約

最近、畳み込みニューラルネットワーク(CNNS)のローカルモデリング機能を変圧器のグローバル依存強度と統合することで、セマンティックセグメンテーションコミュニティに感覚が生まれました。
ただし、相当な計算ワークロードと高いハードウェアメモリの需要は、リアルタイムシナリオでのさらなるアプリケーションに対する大きな障害のままです。
この作業では、リアルタイムのセマンティックセグメンテーションのための軽量の複数情報相互作用ネットワーク(LMIINET)を提案します。これは、CNNとトランスを効果的に組み合わせながら、冗長な計算とメモリフットプリントを削減します。
これは、コンテキストの統合を強化する効率的な畳み込みを含む、軽量の特徴相互作用ボトルネック(LFIB)モジュールを備えています。
さらに、詳細なセマンティック情報をキャプチャするためにローカルおよびグローバルな特徴の相互作用を強化することにより、フラットントランスが改善されます。
LFIBブロックとトランスブロックの両方に組み合わせ係数学習スキームを組み込むと、改善された特徴相互作用が容易になります。
広範な実験は、Lmiinetが精度と効率のバランスをとることに優れていることを示しています。
0.72mパラメーターと11.74gのフロップ(1秒あたりの浮動小数点操作)のみで、Lmiinetは、都市節のテストセットで100 fps(1秒あたりのフレーム)で72.0 \%miouを達成し、単一のrtx2080ti gpuを使用した160 fpsで160 fpsで160 fpsで100 fps(組合の平均交差点)を達成します。

要約(オリジナル)

Recently, integrating the local modeling capabilities of Convolutional Neural Networks (CNNs) with the global dependency strengths of Transformers has created a sensation in the semantic segmentation community. However, substantial computational workloads and high hardware memory demands remain major obstacles to their further application in real-time scenarios. In this work, we propose a Lightweight Multiple-Information Interaction Network (LMIINet) for real-time semantic segmentation, which effectively combines CNNs and Transformers while reducing redundant computations and memory footprints. It features Lightweight Feature Interaction Bottleneck (LFIB) modules comprising efficient convolutions that enhance context integration. Additionally, improvements are made to the Flatten Transformer by enhancing local and global feature interaction to capture detailed semantic information. Incorporating a combination coefficient learning scheme in both LFIB and Transformer blocks facilitates improved feature interaction. Extensive experiments demonstrate that LMIINet excels in balancing accuracy and efficiency. With only 0.72M parameters and 11.74G FLOPs (Floating Point Operations Per Second), LMIINet achieves 72.0\% mIoU at 100 FPS (Frames Per Second) on the Cityscapes test set and 69.94\% mIoU (mean Intersection over Union) at 160 FPS on the CamVid test dataset using a single RTX2080Ti GPU.

arxiv情報

著者 Yangyang Qiu,Guoan Xu,Guangwei Gao,Zhenhua Guo,Yi Yu,Chia-Wen Lin
発行日 2025-04-01 13:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク