要約
畳み込みニューラル ネットワーク (CNN) は過去 10 年間で驚くべき進歩を遂げ、いくつかのコンピューター ビジョン タスクにおいて最先端の技術を確立しました。
CNN は、RGB ピクセルからデータの堅牢な表現を直接学習することができます。
ただし、ほとんどの画像データは通常圧縮形式で利用でき、送信や保存の目的では計算負荷とメモリ使用量が高い事前のデコード処理が必要となるため、JPEG が最も広く使用されています。
このため、近年、圧縮領域から直接学習できるディープラーニング手法が注目されています。
これらの方法は通常、部分デコードによって DCT などの画像の周波数領域表現を抽出し、一般的な CNN アーキテクチャに適応して動作します。
これらの現在の研究の制限の 1 つは、周波数領域データに対応するために、元のモデルに加えられた変更により、パラメーターの量と計算の複雑さが大幅に増加することです。
一方では、画像を完全にデコードするコストが回避されるため、この方法では前処理が高速になりますが、他方では、画像をモデルに渡すコストが増加し、この方法の高速化によって起こり得る利点が軽減されます。
この論文では、周波数領域向けに設計された深いモデルの計算コストのさらなる研究を提案し、ネットワークを介して画像をデコードして渡すコストを評価します。
また、これらのモデルを RGB ベースラインと同様に保つために、計算の複雑さとパラメータの数を削減するための手作りのデータ駆動型の手法も提案します。これにより、計算コストと精度の間のより良いトレードオフを持つ効率的なモデルが得られます。
要約(オリジナル)
Convolutional neural networks (CNNs) have achieved astonishing advances over the past decade, defining state-of-the-art in several computer vision tasks. CNNs are capable of learning robust representations of the data directly from the RGB pixels. However, most image data are usually available in compressed format, from which the JPEG is the most widely used due to transmission and storage purposes demanding a preliminary decoding process that have a high computational load and memory usage. For this reason, deep learning methods capable of learning directly from the compressed domain have been gaining attention in recent years. Those methods usually extract a frequency domain representation of the image, like DCT, by a partial decoding, and then make adaptation to typical CNNs architectures to work with them. One limitation of these current works is that, in order to accommodate the frequency domain data, the modifications made to the original model increase significantly their amount of parameters and computational complexity. On one hand, the methods have faster preprocessing, since the cost of fully decoding the images is avoided, but on the other hand, the cost of passing the images though the model is increased, mitigating the possible upside of accelerating the method. In this paper, we propose a further study of the computational cost of deep models designed for the frequency domain, evaluating the cost of decoding and passing the images through the network. We also propose handcrafted and data-driven techniques for reducing the computational complexity and the number of parameters for these models in order to keep them similar to their RGB baselines, leading to efficient models with a better trade off between computational cost and accuracy.
arxiv情報
著者 | Samuel Felipe dos Santos,Nicu Sebe,Jurandy Almeida |
発行日 | 2023-09-20 15:49:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google