How Far Can We Get with Neural Networks Straight from JPEG?

要約

畳み込みニューラルネットワーク(CNN)は、過去10年間で驚くべき進歩を遂げ、いくつかのコンピュータービジョンタスクで最先端を定義しています。
CNNは、RGBピクセルから直接データの堅牢な表現を学習することができます。
ただし、ほとんどの画像データは通常、圧縮形式で利用できます。JPEGは、計算負荷とメモリ使用量が高い予備的なデコードプロセスを必要とする送信と保存の目的で、最も広く使用されています。
このため、近年、圧縮領域から直接学習できるディープラーニング手法が注目されています。
これらの方法は、典型的なCNNを圧縮ドメインで機能するように適合させますが、一般的なアーキテクチャの変更により、計算の複雑さとパラメーターの数が増加します。
このホワイトペーパーでは、JPEG圧縮画像で利用可能なDCT係数を直接操作するように設計されたCNNの使用法を調査し、計算の複雑さとこれらのモデルのパラメータ数を削減するための手作りのデータ駆動型手法を提案します。
計算コストをRGBベースラインと同じに保ちます。
モデルのパフォーマンスに対するさまざまな周波数範囲、画像解像度、JPEG品質、および分類タスクの難易度の影響を分析するために、ImageNetのサブセットで初期アブレーション研究を行います。
次に、完全なImageNetデータセットでモデルを評価します。
私たちの結果は、DCTモデルが優れたパフォーマンスを得ることができ、提案された手法を使用することで、同様の分類精度を維持しながら、これらのモデルからの計算の複雑さとパラメーターの数を減らすことができることを示しています。

要約(オリジナル)

Convolutional neural networks (CNNs) have achieved astonishing advances over the past decade, defining state-of-the-art in several computer vision tasks. CNNs are capable of learning robust representations of the data directly from the RGB pixels. However, most image data are usually available in compressed format, from which the JPEG is the most widely used due to transmission and storage purposes demanding a preliminary decoding process that have a high computational load and memory usage. For this reason, deep learning methods capable of leaning directly from the compressed domain have been gaining attention in recent years. These methods adapt typical CNNs to work on the compressed domain, but the common architectural modifications lead to an increase in computational complexity and the number of parameters. In this paper, we investigate the usage of CNNs that are designed to work directly with the DCT coefficients available in JPEG compressed images, proposing a handcrafted and data-driven techniques for reducing the computational complexity and the number of parameters for these models in order to keep their computational cost similar to their RGB baselines. We make initial ablation studies on a subset of ImageNet in order to analyse the impact of different frequency ranges, image resolution, JPEG quality and classification task difficulty on the performance of the models. Then, we evaluate the models on the complete ImageNet dataset. Our results indicate that DCT models are capable of obtaining good performance, and that it is possible to reduce the computational complexity and the number of parameters from these models while retaining a similar classification accuracy through the use of our proposed techniques.

arxiv情報

著者 Samuel Felipe dos Santos,Nicu Sebe,Jurandy Almeida
発行日 2022-06-04 10:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク