要約
JPEGは、送信画像の容量を効率的に削減するために広く使用されている圧縮方式である。情報損失によりブロック間でアーチファクトが発生し、画像の品質に影響を与えるだけでなく、特徴ドリフトという点で後続の高レベルタスクにも悪影響を与える。高画質画像で学習された高レベルビジョンモデルは、特にモバイルデバイスで圧縮画像を扱う際に性能劣化を被る。視覚的アーチファクトを処理するために、数多くの学習ベースのJPEGアーチファクト除去法が提案されてきた。しかし、これらのJPEGアーチファクト除去法を圧縮画像分類の前処理として用いるのは、以下の理由から理想的な選択とは言えない:1.これらの方法は、高レベルの視覚モデルではなく、人間の視覚のために設計されている。これらの問題に対処するために、本論文では、圧縮画像に直面したときに、事前に訓練された画像分類モデルの性能を向上させるための新しい軽量AFDモジュールを提案する。まず、FDE-Netを考案し、DCT領域で空間的なFDMを生成する。次に、推定されたFDMをFE-Netに送信し、劣化特徴と対応する高品質特徴との間のマッピング関係を生成する。FE-Netでは、構造的な再パラメータ化を備えた、シンプルだが効果的なRepConvブロックが利用され、トレーニング段階での特徴表現を豊かにすると同時に、展開段階での効率を維持する。限られた圧縮画像で学習した後、AFD-Moduleは、圧縮画像に対する性能を向上させるために、事前に学習された分類モデルの「プラグアンドプレイ」モデルとして機能することができる。実験により、我々の提案するAFDモジュールが、事前に訓練された分類モデルの精度を包括的に向上させ、既存の手法を大幅に上回ることが実証された。
要約(オリジナル)
JPEG is a widely used compression scheme to efficiently reduce the volume of transmitted images. The artifacts appear among blocks due to the information loss, which not only affects the quality of images but also harms the subsequent high-level tasks in terms of feature drifting. High-level vision models trained on high-quality images will suffer performance degradation when dealing with compressed images, especially on mobile devices. Numerous learning-based JPEG artifact removal methods have been proposed to handle visual artifacts. However, it is not an ideal choice to use these JPEG artifact removal methods as a pre-processing for compressed image classification for the following reasons: 1. These methods are designed for human vision rather than high-level vision models; 2. These methods are not efficient enough to serve as pre-processing on resource-constrained devices. To address these issues, this paper proposes a novel lightweight AFD module to boost the performance of pre-trained image classification models when facing compressed images. First, a FDE-Net is devised to generate the spatial-wise FDM in the DCT domain. Next, the estimated FDM is transmitted to the FE-Net to generate the mapping relationship between degraded features and corresponding high-quality features. A simple but effective RepConv block equipped with structural re-parameterization is utilized in FE-Net, which enriches feature representation in the training phase while maintaining efficiency in the deployment phase. After training on limited compressed images, the AFD-Module can serve as a ‘plug-and-play’ model for pre-trained classification models to improve their performance on compressed images. Experiments demonstrate that our proposed AFD module can comprehensively improve the accuracy of the pre-trained classification models and significantly outperform the existing methods.
arxiv情報
著者 | Long Peng,Yang Cao,Yuejin Sun,Yang Wang |
発行日 | 2024-01-03 13:03:44+00:00 |
arxivサイト | arxiv_id(pdf) |