要約
実世界のシナリオでは、可視(RGB)や赤外(IR)のような複数のモダリティを使用することで、物体検出(OD)のような予測タスクの性能を大幅に向上させることができる。マルチモーダル学習は、これらのモダリティを活用する一般的な方法であり、複数のモダリティ固有のエンコーダと融合モジュールを用いて性能を向上させる。本論文では、RGBとIRのモダリティを採用する異なる方法に取り組み、1つの共有ビジョンエンコーダでどちらか一方のモダリティのみを観測する。この現実的な設定は、より少ないメモリフットプリントを必要とし、一般的にRGBとIRデータに依存する自律走行や監視などのアプリケーションに適している。しかし、複数のモダリティで単一のエンコーダを学習する場合、1つのモダリティが他のモダリティを支配し、認識結果にばらつきが生じる可能性がある。本研究では、モダリティの不均衡の影響に対抗しつつ、RGBとIRのモダリティを効率的に活用して、一般的な変換器ベースのODビジョンエンコーダを学習する方法を検討する。そのために、2つのモダリティの共通表現を学習するために、パッチ単位のモダリティ不可知モジュールと組み合わせて、2つのモダリティからパッチ(MiPa)を混合する新しい学習手法を導入する。我々の実験によれば、MiPaは従来のRGB/IRベンチマークにおいて、推論時に単一のモダリティを必要とするだけで、競争力のある結果を達成する表現を学習できる。コードはhttps://github.com/heitorrapela/MiPa。
要約(オリジナル)
In real-world scenarios, using multiple modalities like visible (RGB) and infrared (IR) can greatly improve the performance of a predictive task such as object detection (OD). Multimodal learning is a common way to leverage these modalities, where multiple modality-specific encoders and a fusion module are used to improve performance. In this paper, we tackle a different way to employ RGB and IR modalities, where only one modality or the other is observed by a single shared vision encoder. This realistic setting requires a lower memory footprint and is more suitable for applications such as autonomous driving and surveillance, which commonly rely on RGB and IR data. However, when learning a single encoder on multiple modalities, one modality can dominate the other, producing uneven recognition results. This work investigates how to efficiently leverage RGB and IR modalities to train a common transformer-based OD vision encoder, while countering the effects of modality imbalance. For this, we introduce a novel training technique to Mix Patches (MiPa) from the two modalities, in conjunction with a patch-wise modality agnostic module, for learning a common representation of both modalities. Our experiments show that MiPa can learn a representation to reach competitive results on traditional RGB/IR benchmarks while only requiring a single modality during inference. Our code is available at: https://github.com/heitorrapela/MiPa.
arxiv情報
著者 | Heitor R. Medeiros,David Latortue,Eric Granger,Marco Pedersoli |
発行日 | 2024-08-02 16:13:40+00:00 |
arxivサイト | arxiv_id(pdf) |