要約
低照度条件は機械の認知に悪影響を及ぼし、実生活におけるコンピュータ ビジョン システムのパフォーマンスを制限します。
低照度データは限られており、注釈を付けるのが難しいため、法外に高価になる可能性のある各モデルを微調整するのではなく、低照度画像を強化し、下流のタスク モデルのパフォーマンスを向上させる画像処理に重点を置いています。
私たちは、CLIP モデルを活用して事前に画像をキャプチャし、セマンティック ガイダンスを目的として、既存のゼロリファレンスの低照度強化を改善することを提案します。
具体的には、画像サンプリングに基づくプロンプト学習を介して事前に画像を学習し、ペアまたはペアになっていない通常光データを必要とせずに画像を事前に学習するデータ拡張戦略を提案します。
次に、画像トレーニング パッチに関するコンテンツとコンテキスト キューの両方を導入することで、既存の低照度アノテーションを最大限に活用するセマンティック ガイダンス戦略を提案します。
我々は、定性的研究において、提案された事前の意味論的ガイダンスが、画像全体のコントラストと色相を改善するのに役立つだけでなく、背景と前景の識別を改善するのに役立ち、その結果、関連する画像によく見られる過飽和とノイズの過剰増幅が減少することを実験的に示しています。
ゼロ参照メソッド。
私たちは機械の認知をターゲットとしているため、人間の知覚と下流のタスクのパフォーマンスの間の相関関係の仮定に依存するのではなく、アブレーション研究を実施し、多くの低照度データセットにわたるタスクベースのパフォーマンスの観点から関連するゼロリファレンス手法との比較を行って提示します。
画像分類、物体および顔の検出を含み、提案手法の有効性を示しています。
要約(オリジナル)
Low-light conditions have an adverse impact on machine cognition, limiting the performance of computer vision systems in real life. Since low-light data is limited and difficult to annotate, we focus on image processing to enhance low-light images and improve the performance of any downstream task model, instead of fine-tuning each of the models which can be prohibitively expensive. We propose to improve the existing zero-reference low-light enhancement by leveraging the CLIP model to capture image prior and for semantic guidance. Specifically, we propose a data augmentation strategy to learn an image prior via prompt learning, based on image sampling, to learn the image prior without any need for paired or unpaired normal-light data. Next, we propose a semantic guidance strategy that maximally takes advantage of existing low-light annotation by introducing both content and context cues about the image training patches. We experimentally show, in a qualitative study, that the proposed prior and semantic guidance help to improve the overall image contrast and hue, as well as improve background-foreground discrimination, resulting in reduced over-saturation and noise over-amplification, common in related zero-reference methods. As we target machine cognition, rather than rely on assuming the correlation between human perception and downstream task performance, we conduct and present an ablation study and comparison with related zero-reference methods in terms of task-based performance across many low-light datasets, including image classification, object and face detection, showing the effectiveness of our proposed method.
arxiv情報
著者 | Igor Morawski,Kai He,Shusil Dangi,Winston H. Hsu |
発行日 | 2024-12-10 17:32:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google