要約
データ融合ネットワークは、RGB-熱シーンの解析に大きな可能性を示している。しかし、既存の研究の大半は、異種特徴抽出と融合のための対称型二重エンコーダに依存しており、RGBと熱モダリティ間の固有の違いに十分な注意を払っていない。ラベル付けされていない膨大なデータに対して自己教師を通して学習された視覚基盤モデル(VFM)の最近の進歩により、有益で汎用的な特徴を抽出する能力が証明されている。しかし、この可能性はまだこの領域で十分に活用されていない。本研究では、RGB熱シーンの解析にVFM特徴を完全に活用するための実現可能な戦略を探ることで、この新しい研究領域への一歩を踏み出す。具体的には、RGBと熱モダリティのユニークな特性を深く掘り下げ、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。この設計により、相補的な異種特徴をより効果的に抽出することができ、その後、デュアルパス、プログレッシブ方式で融合される。さらに、融合された特徴の局所的セマンティクスをさらに豊かにする補助タスクを導入することで、RGB熱シーンの解析の全体的な性能を向上させる。これら全ての構成要素を備えた我々の提案するHAPNetは、他の全ての最先端のRGB-熱シーン解析ネットワークと比較して優れた性能を示し、広く利用されている3つの公開RGB-熱シーン解析データセットにおいてトップランクを達成した。我々は、この新しいパラダイムが、データ融合シーン構文解析アプローチの今後の発展に新たな可能性を開いたと考えている。
要約(オリジナル)
Data-fusion networks have shown significant promise for RGB-thermal scene parsing. However, the majority of existing studies have relied on symmetric duplex encoders for heterogeneous feature extraction and fusion, paying inadequate attention to the inherent differences between RGB and thermal modalities. Recent progress in vision foundation models (VFMs) trained through self-supervision on vast amounts of unlabeled data has proven their ability to extract informative, general-purpose features. However, this potential has yet to be fully leveraged in the domain. In this study, we take one step toward this new research area by exploring a feasible strategy to fully exploit VFM features for RGB-thermal scene parsing. Specifically, we delve deeper into the unique characteristics of RGB and thermal modalities, thereby designing a hybrid, asymmetric encoder that incorporates both a VFM and a convolutional neural network. This design allows for more effective extraction of complementary heterogeneous features, which are subsequently fused in a dual-path, progressive manner. Moreover, we introduce an auxiliary task to further enrich the local semantics of the fused features, thereby improving the overall performance of RGB-thermal scene parsing. Our proposed HAPNet, equipped with all these components, demonstrates superior performance compared to all other state-of-the-art RGB-thermal scene parsing networks, achieving top ranks across three widely used public RGB-thermal scene parsing datasets. We believe this new paradigm has opened up new opportunities for future developments in data-fusion scene parsing approaches.
arxiv情報
著者 | Jiahang Li,Peng Yun,Qijun Chen,Rui Fan |
発行日 | 2024-04-04 15:31:11+00:00 |
arxivサイト | arxiv_id(pdf) |