Less is More: Accelerating Faster Neural Networks Straight from JPEG

要約

利用可能なほとんどの画像データは圧縮形式で保存されることが多く、JPEG が最も普及しています。
このデータを畳み込みニューラル ネットワーク (CNN) に供給するには、RGB ピクセルを取得するための予備的なデコード プロセスが必要であり、高い計算負荷とメモリ使用量が要求されます。
このため、JPEG 圧縮データを処理するための CNN の設計が近年注目されています。
ほとんどの既存の作品では、典型的な CNN アーキテクチャは、RGB ピクセルではなく DCT 係数を使用した学習を容易にするように適合されています。
それらは効果的ですが、アーキテクチャの変更により、計算コストが上昇するか、DCT 入力からの関連情報が無視されます。
このホワイト ペーパーでは、DCT 入力用に設計された CNN を高速化するさまざまな方法を検討し、DCT 入力を最大限に活用して計算の複雑さを軽減する学習戦略を活用します。
私たちの実験は、ImageNet データセットで実施されました。
結果は、すべての DCT 入力をデータ駆動型の方法で結合する方法を学習することは、手動でそれらを破棄するよりも優れていることを示しており、レイヤーの削減との組み合わせは、精度を維持しながら計算コストを削減するのに効果的であることが証明されています。

要約(オリジナル)

Most image data available are often stored in a compressed format, from which JPEG is the most widespread. To feed this data on a convolutional neural network (CNN), a preliminary decoding process is required to obtain RGB pixels, demanding a high computational load and memory usage. For this reason, the design of CNNs for processing JPEG compressed data has gained attention in recent years. In most existing works, typical CNN architectures are adapted to facilitate the learning with the DCT coefficients rather than RGB pixels. Although they are effective, their architectural changes either raise the computational costs or neglect relevant information from DCT inputs. In this paper, we examine different ways of speeding up CNNs designed for DCT inputs, exploiting learning strategies to reduce the computational complexity by taking full advantage of DCT inputs. Our experiments were conducted on the ImageNet dataset. Results show that learning how to combine all DCT inputs in a data-driven fashion is better than discarding them by hand, and its combination with a reduction of layers has proven to be effective for reducing the computational costs while retaining accuracy.

arxiv情報

著者 Samuel Felipe dos Santos,Jurandy Almeida
発行日 2022-08-24 14:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク