MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection

要約

この論文では、一方のモダリティまたは他方のモダリティを単一のモデルで表示する、2 つのモダリティを使用する別の方法を紹介します。
これは、限られた計算予算を尊重しながら、より多くの情報を活用するために単峰性モデルを適応させる場合に役立ちます。
これは、あらゆるモダリティに対応できる単一のモデルを持つことを意味します。
これを説明するために、私たちはエニーモーダル学習という用語を作りました。
この例としては、照明がオフのときに室内を監視する場合、赤外線モダリティを使用するとはるかに価値が高くなりますが、照明がオンのときには可視のモダリティがより識別可能な情報を提供するというユースケースが挙げられます。
この研究では、変圧器ベースの物体検出バックボーンに可視モダリティと赤外線/熱モダリティを効率的に活用して、エニーモーダル アーキテクチャを作成する方法を調査します。
私たちの作業では、トレーニング中に 2 つのモダリティを活用する効果的な方法を模索しながら、テスト中に推論のオーバーヘッドが発生することはありません。
このようなタスクを達成するために、新しい任意のトレーニング手法である混合パッチ (MiPa) をパッチごとのドメインに依存しないモジュールと組み合わせて導入します。このモジュールは、両方のモダリティの共通表現を見つけるための最適な方法を学習する役割を果たします。
このアプローチは、3 つの異なる可視赤外線物体検出データセットでユニモーダル アーキテクチャを使用する代わりに、個々のモダリティ ベンチマークで競合する結果に達することで、モダリティのバランスを取れることが証明されています。
最後に、私たちの提案した方法は、最も強力なモダリティの正則化として使用すると、推論中に単一のモダリティのみを必要としながら、マルチモーダル融合法のパフォーマンスを上回ることができます。
特に、MiPa は LLVIP 可視/赤外線ベンチマークにおいて最先端のものになりました。
コード: https://github.com/heitorrapela/MiPa

要約(オリジナル)

In this paper, we present a different way to use two modalities, in which either one modality or the other is seen by a single model. This can be useful when adapting an unimodal model to leverage more information while respecting a limited computational budget. This would mean having a single model that is able to deal with any modalities. To describe this, we coined the term anymodal learning. An example of this, is a use case where, surveillance in a room when the lights are off would be much more valuable using an infrared modality while a visible one would provide more discriminative information when lights are on. This work investigates how to efficiently leverage visible and infrared/thermal modalities for transformer-based object detection backbone to create an anymodal architecture. Our work does not create any inference overhead during the testing while exploring an effective way to exploit the two modalities during the training. To accomplish such a task, we introduce the novel anymodal training technique: Mixed Patches (MiPa), in conjunction with a patch-wise domain agnostic module, which is responsible of learning the best way to find a common representation of both modalities. This approach proves to be able to balance modalities by reaching competitive results on individual modality benchmarks with the alternative of using an unimodal architecture on three different visible-infrared object detection datasets. Finally, our proposed method, when used as a regularization for the strongest modality, can beat the performance of multimodal fusion methods while only requiring a single modality during inference. Notably, MiPa became the state-of-the-art on the LLVIP visible/infrared benchmark. Code: https://github.com/heitorrapela/MiPa

arxiv情報

著者 Heitor R. Medeiros,David Latortue,Fidel Guerrero Pena,Eric Granger,Marco Pedersoli
発行日 2024-04-29 16:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク