FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision

要約

下流のタスクに役立つ視覚的な手がかりを抽出することは、暗い視界の下では特に困難です。
これまでの研究では、視覚品質を機械の知覚と相関させるか、合成データセットでの事前トレーニングを必要とする照明を劣化させる変換方法を設計することによって、強化された表現を作成していました。
私たちは、下流タスクの損失に関連する強化された画像表現を最適化すると、より表現力豊かな表現が得られると主張します。
したがって、この研究では、タスク関連の損失関数によって誘導されるマルチヘッド注意を使用してマルチスケール特徴を階層的に組み合わせ、適切な表現を作成する新しいモジュール FeatEnHancer を提案します。
さらに、スケール内の機能強化により、各スケールまたはレベルで抽出された特徴の品質が向上するだけでなく、当面のタスクに対する相対的な重要性を反映する方法で、さまざまなスケールの特徴が結合されます。
FeatEnHancer は汎用のプラグアンドプレイ モジュールであり、あらゆる低照度ビジョン パイプラインに組み込むことができます。
広範な実験により、FeatEnHancer で生成された強化された表現により、暗い物体検出 (ExDark で +5.7 mAP)、顔検出 (DARK FACE で +1.5 mAP)、夜間セマンティック セグメンテーションなど、いくつかの低照度視覚タスクの結果が大幅かつ一貫して向上することが示されました。
(ACDC で +5.1 mIoU)、ビデオ オブジェクト検出 (DarkVision で +1.8 mAP) を実現し、低照度視覚下での階層機能強化の有効性を強調しています。

要約(オリジナル)

Extracting useful visual cues for the downstream tasks is especially challenging under low-light vision. Prior works create enhanced representations by either correlating visual quality with machine perception or designing illumination-degrading transformation methods that require pre-training on synthetic datasets. We argue that optimizing enhanced image representation pertaining to the loss of the downstream task can result in more expressive representations. Therefore, in this work, we propose a novel module, FeatEnHancer, that hierarchically combines multiscale features using multiheaded attention guided by task-related loss function to create suitable representations. Furthermore, our intra-scale enhancement improves the quality of features extracted at each scale or level, as well as combines features from different scales in a way that reflects their relative importance for the task at hand. FeatEnHancer is a general-purpose plug-and-play module and can be incorporated into any low-light vision pipeline. We show with extensive experimentation that the enhanced representation produced with FeatEnHancer significantly and consistently improves results in several low-light vision tasks, including dark object detection (+5.7 mAP on ExDark), face detection (+1.5 mAPon DARK FACE), nighttime semantic segmentation (+5.1 mIoU on ACDC ), and video object detection (+1.8 mAP on DarkVision), highlighting the effectiveness of enhancing hierarchical features under low-light vision.

arxiv情報

著者 Khurram Azeem Hashmi,Goutham Kallempudi,Didier Stricker,Muhammamd Zeshan Afzal
発行日 2023-08-07 13:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク