Are Visual Recognition Models Robust to Image Compression?

要約

タイトル:画像圧縮による視覚認識モデルの堅牢性はあるか?

要約:
– 画像圧縮により、ストレージ要件の削減だけでなく、伝送の帯域幅やレイテンシの要件を減らすために、視覚コンテンツのデータフットプリントを減らすことが重要である。
– 圧縮された画像の使用は、クラウドベースのサービスに依存するエッジデバイスでのデータ転送の高速化や視覚認識の高速な応答時間を可能にする。
– この論文では、画像分類、物体検出、セマンティックセグメンテーションの3つの視覚認識タスクにおいて、伝統的なコーデックだけでなく最新のニューラル圧縮手法を使用した画像圧縮の影響を分析する。
– 圧縮率0.1から2ビットパーピクセル(bpp)の幅広い範囲を検討する。
– すべての3つのタスクにおいて、強い圧縮を行うと認識能力が著しく低下することがわかる。
– たとえば、最高の圧縮モデルを使用して0.1 bppに圧縮した場合、セグメンテーションmIoUは44.5から30.5 mIoUに低下する。
– その次に、この性能低下が、圧縮された画像から重要な情報が失われたことに起因するのか、または視覚認識モデルが圧縮アーティファクトのある画像に対して一般化できないために発生するのかをどの程度説明できるかをテストする。
– 大部分の性能低下は後者に起因することがわかる。つまり、圧縮されたトレーニング画像で認識モデルを微調整することで、元の精度のほとんどを回復することができる。
– たとえば、セグメンテーション精度を42 mIoUまで回復し、元の精度低下の82%を回復することができる。

要約(オリジナル)

Reducing the data footprint of visual content via image compression is essential to reduce storage requirements, but also to reduce the bandwidth and latency requirements for transmission. In particular, the use of compressed images allows for faster transfer of data, and faster response times for visual recognition in edge devices that rely on cloud-based services. In this paper, we first analyze the impact of image compression using traditional codecs, as well as recent state-of-the-art neural compression approaches, on three visual recognition tasks: image classification, object detection, and semantic segmentation. We consider a wide range of compression levels, ranging from 0.1 to 2 bits-per-pixel (bpp). We find that for all three tasks, the recognition ability is significantly impacted when using strong compression. For example, for segmentation mIoU is reduced from 44.5 to 30.5 mIoU when compressing to 0.1 bpp using the best compression model we evaluated. Second, we test to what extent this performance drop can be ascribed to a loss of relevant information in the compressed image, or to a lack of generalization of visual recognition models to images with compression artefacts. We find that to a large extent the performance loss is due to the latter: by finetuning the recognition models on compressed training images, most of the performance loss is recovered. For example, bringing segmentation accuracy back up to 42 mIoU, i.e. recovering 82% of the original drop in accuracy.

arxiv情報

著者 João Maria Janeiro,Stanislav Frolov,Alaaeldin El-Nouby,Jakob Verbeek
発行日 2023-04-10 11:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク