要約
可視(RGB)画像と赤外線(IR)画像のセマンティック分析は、低照度や複雑な気象条件下でもより正確かつ堅牢に実行できる機能として注目を集めています。
大規模な赤外線画像データセットで事前トレーニングされた基礎モデルが不足しているため、既存の手法では、タスク固有のフレームワークを設計し、RGB-IR セマンティック関連性データセットで事前トレーニングされた基礎モデルを使用して直接微調整することを好みます。
その結果、スケーラビリティが低下し、一般化が制限されます。
この研究では、RGB-IR セマンティック タスクを統合するための UniRGB-IR と呼ばれる一般的で効率的なフレームワークを提案します。このフレームワークでは、事前トレーニングされた RGB ベースの基礎モデルに、より豊富な RGB-IR 機能を効率的に導入するための新しいアダプターが開発されます。
具体的には、私たちのフレームワークは、RGB ベースの基礎モデル、マルチモーダル機能プール (MFP) モジュール、および補足機能インジェクター (SFI) モジュールで構成されます。
MFP モジュールと SFI モジュールはアダプターとして相互に連携し、RGB ベースの機能を豊富な RGB-IR 機能で効果的に補完します。
トレーニング プロセス中に、基礎モデル全体をフリーズして事前の知識を継承し、提案されたアダプターのみを最適化します。
さらに、フレームワークの有効性を検証するために、バニラ ビジョン トランスフォーマー (ViT-Base) を事前トレーニングされた基礎モデルとして利用し、広範な実験を実行します。
さまざまな RGB-IR ダウンストリーム タスクの実験結果は、私たちの方法が最先端のパフォーマンスを達成できることを示しています。
ソース コードと結果は https://github.com/PoTsui99/UniRGB-IR.git で入手できます。
要約(オリジナル)
Semantic analysis on visible (RGB) and infrared (IR) images has gained attention for its ability to be more accurate and robust under low-illumination and complex weather conditions. Due to the lack of pre-trained foundation models on the large-scale infrared image datasets, existing methods prefer to design task-specific frameworks and directly fine-tune them with pre-trained foundation models on their RGB-IR semantic relevance datasets, which results in poor scalability and limited generalization. In this work, we propose a general and efficient framework called UniRGB-IR to unify RGB-IR semantic tasks, in which a novel adapter is developed to efficiently introduce richer RGB-IR features into the pre-trained RGB-based foundation model. Specifically, our framework consists of a RGB-based foundation model, a Multi-modal Feature Pool (MFP) module and a Supplementary Feature Injector (SFI) module. The MFP and SFI modules cooperate with each other as an adapter to effectively complement the RGB-based features with the rich RGB-IR features. During training process, we freeze the entire foundation model to inherit prior knowledge and only optimize the proposed adapter. Furthermore, to verify the effectiveness of our framework, we utilize the vanilla vision transformer (ViT-Base) as the pre-trained foundation model to perform extensive experiments. Experimental results on various RGB-IR downstream tasks demonstrate that our method can achieve state-of-the-art performance. The source code and results are available at https://github.com/PoTsui99/UniRGB-IR.git.
arxiv情報
著者 | Maoxun Yuan,Bo Cui,Tianyi Zhao,Jiayi Wang,Shan Fu,Xingxing Wei |
発行日 | 2024-11-04 14:47:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google