要約
RGB サーマル セマンティック セグメンテーションは、悪天候や照明条件で信頼性の高いセマンティック シーンの理解を達成するための 1 つの潜在的なソリューションです。
ただし、以前の研究は、マルチモダリティ入力の性質を考慮せずに、マルチモーダル融合モジュールの設計に主に焦点を当てています。
したがって、ネットワークは単一のモダリティに過度に依存しやすくなり、各モダリティの補完的で意味のある表現を学習することが困難になります。
この論文では、1) RGB-T 画像の補完的なランダム マスキング戦略、および 2) クリーンな入力モダリティとマスクされた入力モダリティ間の自己蒸留損失を提案します。
提案されたマスキング戦略は、単一のモダリティへの過度の依存を防ぎます。
また、1 つのモダリティが部分的に利用可能な場合でも、ネットワークにオブジェクトのセグメント化と分類を強制することで、ニューラル ネットワークの精度と堅牢性を向上させます。
また、提案された自己蒸留損失は、ネットワークが単一のモダリティまたは補完的なマスクされたモダリティから補完的で意味のある表現を抽出することを促進します。
提案された方法に基づいて、3 つの RGB-T セマンティック セグメンテーション ベンチマークで最先端のパフォーマンスを達成します。
ソース コードは https://github.com/UkcheolShin/CRM_RGBTSeg で入手できます。
要約(オリジナル)
RGB-thermal semantic segmentation is one potential solution to achieve reliable semantic scene understanding in adverse weather and lighting conditions. However, the previous studies mostly focus on designing a multi-modal fusion module without consideration of the nature of multi-modality inputs. Therefore, the networks easily become over-reliant on a single modality, making it difficult to learn complementary and meaningful representations for each modality. This paper proposes 1) a complementary random masking strategy of RGB-T images and 2) self-distillation loss between clean and masked input modalities. The proposed masking strategy prevents over-reliance on a single modality. It also improves the accuracy and robustness of the neural network by forcing the network to segment and classify objects even when one modality is partially available. Also, the proposed self-distillation loss encourages the network to extract complementary and meaningful representations from a single modality or complementary masked modalities. Based on the proposed method, we achieve state-of-the-art performance over three RGB-T semantic segmentation benchmarks. Our source code is available at https://github.com/UkcheolShin/CRM_RGBTSeg.
arxiv情報
著者 | Ukcheol Shin,Kyunghyun Lee,In So Kweon |
発行日 | 2023-03-30 13:57:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google