A Rate-Distortion-Classification Approach for Lossy Image Compression

要約

非可逆画像圧縮では、指定されたビットレートに画像を圧縮しながら、最小限の信号歪みを達成することが目的である。視覚分析アプリケーション、特に分類タスクに対する需要の高まりは、圧縮画像における意味的歪みを考慮することの重要性を強調している。画像圧縮と視覚分析の間のギャップを埋めるために、我々は非可逆画像圧縮のためのRDC(Rate-Distortion-Classification)モデルを提案し、レート、歪み、分類精度の間のトレードオフを最適化する統一的なフレームワークを提供する。RDCモデルは、多分布ソースを用いた統計的解析と、広く使用されているMNISTデータセットを用いた実験的解析の両方で広範囲に分析されている。その結果、RDCモデルは特定の条件下で、単調非増加関数や凸関数などの望ましい特性を示すことが明らかになった。本研究は、人間と機械に優しい圧縮手法とVideo Coding for Machine (VCM)アプローチの開発に対する洞察を提供し、実世界のアプリケーションにおけるエンドツーエンドの画像圧縮技術への道を開くものである。

要約(オリジナル)

In lossy image compression, the objective is to achieve minimal signal distortion while compressing images to a specified bit rate. The increasing demand for visual analysis applications, particularly in classification tasks, has emphasized the significance of considering semantic distortion in compressed images. To bridge the gap between image compression and visual analysis, we propose a Rate-Distortion-Classification (RDC) model for lossy image compression, offering a unified framework to optimize the trade-off between rate, distortion, and classification accuracy. The RDC model is extensively analyzed both statistically on a multi-distribution source and experimentally on the widely used MNIST dataset. The findings reveal that the RDC model exhibits desirable properties, including monotonic non-increasing and convex functions, under certain conditions. This work provides insights into the development of human-machine friendly compression methods and Video Coding for Machine (VCM) approaches, paving the way for end-to-end image compression techniques in real-world applications.

arxiv情報

著者 Yuefeng Zhang
発行日 2024-05-06 14:11:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.IT, cs.MM, math.IT パーマリンク