CNN Injected Transformer for Image Exposure Correction

要約

不適切な露出設定で画像をキャプチャすると、満足のいく視覚体験を提供できません。
露出が適切に設定されて初めて、画像の色と詳細が適切に保存されます。
畳み込みに基づく従来の露出補正方法では、畳み込みカーネルの制限された受容野の結果として画像に露出のずれが生じることがよくあります。
この問題は、畳み込みが画像内の長距離の依存関係を正確にキャプチャできないために発生します。
この課題を克服するには、Transformer を適用して露出補正の問題に対処し、その機能を活用して長距離の依存関係をモデル化し、グローバルな表現をキャプチャします。
ただし、ウィンドウベースの Transformer のみに依存すると、小さなパッチにセルフ アテンションが適用されるため、視覚的に邪魔なブロッキング アーティファクトが発生します。
この論文では、CNN と Transformer のそれぞれの長所を同時に活用する CNN Injected Transformer (CIT) を提案します。
具体的には、ウィンドウベースの Transformer を利用して、画像全体の異なる領域間の長距離相互作用を利用して CIT を構築します。
各 CIT ブロック内には、チャネル アテンション ブロック (CAB) とハーフ インスタンス正規化ブロック (HINB) が組み込まれており、ウィンドウ ベースのセルフ アテンションを支援してグローバル統計を取得し、ローカルな特徴を調整します。
露出補正のためのハイブリッド アーキテクチャ設計に加え、慎重に定式化された一連の損失関数を適用して、空間コヒーレンスを改善し、潜在的な色偏差を修正します。
広範な実験により、当社の画像露出補正方法が定量的および定性的指標の両方の点で最先端のアプローチよりも優れていることが実証されました。

要約(オリジナル)

Capturing images with incorrect exposure settings fails to deliver a satisfactory visual experience. Only when the exposure is properly set, can the color and details of the images be appropriately preserved. Previous exposure correction methods based on convolutions often produce exposure deviation in images as a consequence of the restricted receptive field of convolutional kernels. This issue arises because convolutions are not capable of capturing long-range dependencies in images accurately. To overcome this challenge, we can apply the Transformer to address the exposure correction problem, leveraging its capability in modeling long-range dependencies to capture global representation. However, solely relying on the window-based Transformer leads to visually disturbing blocking artifacts due to the application of self-attention in small patches. In this paper, we propose a CNN Injected Transformer (CIT) to harness the individual strengths of CNN and Transformer simultaneously. Specifically, we construct the CIT by utilizing a window-based Transformer to exploit the long-range interactions among different regions in the entire image. Within each CIT block, we incorporate a channel attention block (CAB) and a half-instance normalization block (HINB) to assist the window-based self-attention to acquire the global statistics and refine local features. In addition to the hybrid architecture design for exposure correction, we apply a set of carefully formulated loss functions to improve the spatial coherence and rectify potential color deviations. Extensive experiments demonstrate that our image exposure correction method outperforms state-of-the-art approaches in terms of both quantitative and qualitative metrics.

arxiv情報

著者 Shuning Xu,Xiangyu Chen,Binbin Song,Jiantao Zhou
発行日 2023-09-08 14:53:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク