要約
複数のバンドからの情報を統合するマルチスペクトルオブジェクトの検出は、検出の精度と環境適応性を高め、さまざまな分野にわたって優れたアプリケーションの可能性を保持できます。
既存の方法では、クロスモーダルの相互作用、低光条件、モデルの軽量が進歩していますが、統一された単一ステージフレームワークの欠如、パフォーマンスと融合戦略のバランスの困難、不合理なモダリティ重量割り当てなどの課題がまだあります。
Yolov11フレームワークに基づいてこれらに対処するために、新しい包括的なマルチモーダルオブジェクト検出フレームワークであるYolov11-RGBTを提示します。
6つのマルチスペクトル融合モードを設計し、Yolov3からYolov12およびRT-Detrへのモデルに正常に適用しました。
2つのモダリティの重要性を再評価した後、マルチスペクトルモデルのP3ミッドフュージョン戦略とマルチスペクトル制御可能な微調整(MCF)戦略を提案しました。
これらの改善により、特徴の融合が最適化され、冗長性と不一致を減らし、全体的なモデルのパフォーマンスを向上させます。
実験では、LLVIPやFLIRなどの3つの主要なオープンソースマルチスペクトルオブジェクト検出データセットに優れていることが示されています。
特に、マルチスペクトル制御可能な微調整戦略により、モデルの適応性と堅牢性が大幅に向上しました。
FLIRデータセットでは、Yolov11モデルのマップが3.41%-5.65%で一貫して改善され、最大47.61%に達し、フレームワークと戦略の有効性が検証されました。
このコードは、https://github.com/wandahangfy/yolov11-rgbtで入手できます。
要約(オリジナル)
Multispectral object detection, which integrates information from multiple bands, can enhance detection accuracy and environmental adaptability, holding great application potential across various fields. Although existing methods have made progress in cross-modal interaction, low-light conditions, and model lightweight, there are still challenges like the lack of a unified single-stage framework, difficulty in balancing performance and fusion strategy, and unreasonable modality weight allocation. To address these, based on the YOLOv11 framework, we present YOLOv11-RGBT, a new comprehensive multimodal object detection framework. We designed six multispectral fusion modes and successfully applied them to models from YOLOv3 to YOLOv12 and RT-DETR. After reevaluating the importance of the two modalities, we proposed a P3 mid-fusion strategy and multispectral controllable fine-tuning (MCF) strategy for multispectral models. These improvements optimize feature fusion, reduce redundancy and mismatches, and boost overall model performance. Experiments show our framework excels on three major open-source multispectral object detection datasets, like LLVIP and FLIR. Particularly, the multispectral controllable fine-tuning strategy significantly enhanced model adaptability and robustness. On the FLIR dataset, it consistently improved YOLOv11 models’ mAP by 3.41%-5.65%, reaching a maximum of 47.61%, verifying the framework and strategies’ effectiveness. The code is available at: https://github.com/wandahangFY/YOLOv11-RGBT.
arxiv情報
著者 | Dahang Wan,Rongsheng Lu,Yang Fang,Xianli Lang,Shuangbao Shu,Jingjing Chen,Siyuan Shen,Ting Xu,Zecong Ye |
発行日 | 2025-06-18 13:54:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google