DNN-Compressed Domain Visual Recognition with Feature Adaptation

要約

学習ベースの画像圧縮は、最先端の変換ベースのコーデックと同等のパフォーマンスを達成することが示されました。
これが、JPEG-AI などの新しい学習ベースの視覚圧縮規格の開発のきっかけとなりました。
これらの新しい標準で特に興味深いのは、人間と機械の両方を対象とした学習ベースの画像圧縮システムの開発です。
この論文は、圧縮ドメイン表現を利用して視覚処理やコンピュータ ビジョン タスクを圧縮ドメイン内で直接実行できる学習ベースの圧縮スキームに関するものです。
私たちの研究では、さまざまなビットレートで圧縮ドメインの潜在表現を使用して視覚認識を実行するために、学習ベースの圧縮ドメイン分類フレームワークを採用しています。
我々は、抽出されたチャネルごとの情報内の主要な特徴を適応的に強調および強化するために、軽量の注意モデルを統合した新しい特徴適応モジュールを提案します。
また、事前トレーニングされたピクセル領域の重みを利用するための適応トレーニング戦略を設計します。
比較のために、私たちが提案する潜在ベースの圧縮ドメイン方法を使用して得られたパフォーマンス結果に加えて、ピクセルドメインで圧縮されているが完全にデコードされた画像と元の非圧縮画像を使用したパフォーマンス結果も示します。
得られたパフォーマンス結果は、私たちが提案した圧縮ドメイン分類モデルが既存の圧縮ドメイン分類モデルよりも明らかに優れたパフォーマンスを発揮できること、およびトレーニングされたピクセルドメイン モデルと比較してはるかに高い計算効率で同様の精度の結果を生成できることを示しています。
完全にデコードされた画像を使用します。

要約(オリジナル)

Learning-based image compression was shown to achieve a competitive performance with state-of-the-art transform-based codecs. This motivated the development of new learning-based visual compression standards such as JPEG-AI. Of particular interest to these emerging standards is the development of learning-based image compression systems targeting both humans and machines. This paper is concerned with learning-based compression schemes whose compressed-domain representations can be utilized to perform visual processing and computer vision tasks directly in the compressed domain. In our work, we adopt a learning-based compressed-domain classification framework for performing visual recognition using the compressed-domain latent representation at varying bit-rates. We propose a novel feature adaptation module integrating a lightweight attention model to adaptively emphasize and enhance the key features within the extracted channel-wise information. Also, we design an adaptation training strategy to utilize the pretrained pixel-domain weights. For comparison, in addition to the performance results that are obtained using our proposed latent-based compressed-domain method, we also present performance results using compressed but fully decoded images in the pixel domain as well as original uncompressed images. The obtained performance results show that our proposed compressed-domain classification model can distinctly outperform the existing compressed-domain classification models, and that it can also yield similar accuracy results with a much higher computational efficiency as compared to the pixel-domain models that are trained using fully decoded images.

arxiv情報

著者 Yingpeng Deng,Lina J. Karam
発行日 2023-07-26 09:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク