Tensor Factorization for Leveraging Cross-Modal Knowledge in Data-Constrained Infrared Object Detection

要約

IR 画像で優れた認識パフォーマンスを得る上での主なボトルネックは、データの取得にコストがかかるため、十分なラベル付きトレーニング データが不足していることです。
存在する巨大なトレーニング セットのおかげで、RGB モダリティのオブジェクト検出方法が非常に堅牢であることを認識し (少なくとも人、車などのいくつかのありふれたクラスに対して)、この作業では RGB モダリティからの手がかりを活用しようとします。
RGB モダリティでのモデルのパフォーマンスを維持しながら、物体検出器を IR モダリティに合わせてスケーリングします。
私たちのメソッドの中核となるのは、畳み込みニューラル ネットワーク (CNN) の層の畳み込みカーネルを、元の CNN よりも少ないパラメーターを持つ低ランクの因子行列に分割する TensorFact と呼ばれる新しいテンソル分解メソッドです。
まず、大量のトレーニング データが存在すると想定される RGB モダリティでこれらの因子行列を事前トレーニングし、次に、過学習を避けるために、IR モダリティでのトレーニング用にいくつかのトレーニング可能なパラメータのみを追加します。同時に、それらのパラメータから補完的な手がかりを捕捉するように促します。
RGB モダリティのみでトレーニングされました。
まず、元のネットワークと比較して、RGB 画像内のオブジェクトを検出するタスクにおいて TensorFact 分解ネットワークがどの程度うまく機能するかを評価し、次にそれが FLIR ADAS v1 データセットの IR 画像にどの程度うまく適応するかを調べることで、私たちのアプローチを経験的に検証します。
後者の場合、データ不足に起因する課題を引き起こすシナリオに基づいてモデルをトレーニングします。
実験から次のことがわかりました。(i) TensorFact は RGB 画像でパフォーマンスの向上を示します。
(ii) さらに、この事前トレーニング済みモデルは、微調整すると、FLIR ADAS v1 データセット上の標準的な最先端の物体検出器よりも mAP 50 スコアの点で約 4% 優れています。

要約(オリジナル)

The primary bottleneck towards obtaining good recognition performance in IR images is the lack of sufficient labeled training data, owing to the cost of acquiring such data. Realizing that object detection methods for the RGB modality are quite robust (at least for some commonplace classes, like person, car, etc.), thanks to the giant training sets that exist, in this work we seek to leverage cues from the RGB modality to scale object detectors to the IR modality, while preserving model performance in the RGB modality. At the core of our method, is a novel tensor decomposition method called TensorFact which splits the convolution kernels of a layer of a Convolutional Neural Network (CNN) into low-rank factor matrices, with fewer parameters than the original CNN. We first pretrain these factor matrices on the RGB modality, for which plenty of training data are assumed to exist and then augment only a few trainable parameters for training on the IR modality to avoid over-fitting, while encouraging them to capture complementary cues from those trained only on the RGB modality. We validate our approach empirically by first assessing how well our TensorFact decomposed network performs at the task of detecting objects in RGB images vis-a-vis the original network and then look at how well it adapts to IR images of the FLIR ADAS v1 dataset. For the latter, we train models under scenarios that pose challenges stemming from data paucity. From the experiments, we observe that: (i) TensorFact shows performance gains on RGB images; (ii) further, this pre-trained model, when fine-tuned, outperforms a standard state-of-the-art object detector on the FLIR ADAS v1 dataset by about 4% in terms of mAP 50 score.

arxiv情報

著者 Manish Sharma,Moitreya Chatterjee,Kuan-Chuan Peng,Suhas Lohit,Michael Jones
発行日 2023-09-28 16:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク