A Perspective on Deep Vision Performance with Standard Image and Video Codecs


エッジ デバイスや携帯電話など、リソースに制約のあるハードウェアは、ディープ ビジョン モデルでの推論に必要な計算リソースを提供するためにクラウド サーバーに依存することがよくあります。
ただし、画像およびビデオ データをエッジまたはモバイル デバイスからクラウド サーバーに転送するには、ネットワークの制約に対処するためのコーディングが必要です。
JPEG や H.264 などの標準化されたコーデックの使用が普及しており、相互運用性を確保するために必要です。
このペーパーは、ディープ ビジョン パイプライン内で標準化されたコーデックを採用することの影響を調べることを目的としています。
JPEG および H.264 コーディングを使用すると、広範囲の視覚タスクおよびモデルにわたって精度が大幅に低下することがわかりました。
たとえば、圧縮率が高いと、セマンティック セグメンテーションの精度が mIoU 単位で 80% 以上低下します。


Resource-constrained hardware, such as edge devices or cell phones, often rely on cloud servers to provide the required computational resources for inference in deep vision models. However, transferring image and video data from an edge or mobile device to a cloud server requires coding to deal with network constraints. The use of standardized codecs, such as JPEG or H.264, is prevalent and required to ensure interoperability. This paper aims to examine the implications of employing standardized codecs within deep vision pipelines. We find that using JPEG and H.264 coding significantly deteriorates the accuracy across a broad range of vision tasks and models. For instance, strong compression rates reduce semantic segmentation accuracy by more than 80% in mIoU. In contrast to previous findings, our analysis extends beyond image and action classification to localization and dense prediction tasks, thus providing a more comprehensive perspective.


著者 Christoph Reich,Oliver Hahn,Daniel Cremers,Stefan Roth,Biplob Debnath
発行日 2024-04-18 16:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク