要約
可視(RGB)画像と赤外線(IR)画像のセマンティック分析は、低照度や複雑な気象条件下でもより正確かつ堅牢に実行できる機能として注目を集めています。
大規模な赤外線画像データセットで事前トレーニングされた基礎モデルが不足しているため、既存の手法では、タスク固有のフレームワークを設計し、RGB-IR セマンティック関連性データセットで事前トレーニングされた基礎モデルを使用して直接微調整することを好みます。
その結果、スケーラビリティが低下し、一般化が制限されます。
この研究では、RGB-IR ダウンストリーム タスクを統合するための UniRGB-IR と呼ばれるスケーラブルで効率的なフレームワークを提案します。このフレームワークでは、事前トレーニングされた RGB ベースの基礎モデルに、より豊富な RGB-IR 機能を効率的に導入するための新しいアダプターが開発されています。
具体的には、私たちのフレームワークは、ビジョン トランスフォーマー (ViT) 基盤モデル、マルチモーダル機能プール (MFP) モジュール、および補足機能インジェクター (SFI) モジュールで構成されます。
MFP モジュールと SFI モジュールはアダプターとして相互に連携し、コンテキストに応じたマルチスケール機能で ViT 機能を効果的に補完します。
トレーニング プロセス中に、基礎モデル全体をフリーズして事前知識を継承し、MFP モジュールと SFI モジュールのみを最適化します。
さらに、フレームワークの有効性を検証するために、ViT-Base を事前トレーニングされた基礎モデルとして利用し、広範な実験を実行します。
さまざまな RGB-IR ダウンストリーム タスクの実験結果は、私たちの方法が最先端のパフォーマンスを達成できることを示しています。
ソース コードと結果は https://github.com/PoTsui99/UniRGB-IR.git で入手できます。
要約(オリジナル)
Semantic analysis on visible (RGB) and infrared (IR) images has gained attention for its ability to be more accurate and robust under low-illumination and complex weather conditions. Due to the lack of pre-trained foundation models on the large-scale infrared image datasets, existing methods prefer to design task-specific frameworks and directly fine-tune them with pre-trained foundation models on their RGB-IR semantic relevance datasets, which results in poor scalability and limited generalization. In this work, we propose a scalable and efficient framework called UniRGB-IR to unify RGB-IR downstream tasks, in which a novel adapter is developed to efficiently introduce richer RGB-IR features into the pre-trained RGB-based foundation model. Specifically, our framework consists of a vision transformer (ViT) foundation model, a Multi-modal Feature Pool (MFP) module and a Supplementary Feature Injector (SFI) module. The MFP and SFI modules cooperate with each other as an adpater to effectively complement the ViT features with the contextual multi-scale features. During training process, we freeze the entire foundation model to inherit prior knowledge and only optimize the MFP and SFI modules. Furthermore, to verify the effectiveness of our framework, we utilize the ViT-Base as the pre-trained foundation model to perform extensive experiments. Experimental results on various RGB-IR downstream tasks demonstrate that our method can achieve state-of-the-art performance. The source code and results are available at https://github.com/PoTsui99/UniRGB-IR.git.
arxiv情報
著者 | Maoxun Yuan,Bo Cui,Tianyi Zhao,Xingxing Wei |
発行日 | 2024-04-26 12:21:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google