End-to-End Optimized Image Compression with the Frequency-Oriented Transform

要約

画像圧縮は、情報爆発の時代の中で重要な課題となっています。
深層学習手法を採用した最近の研究では、学習ベースの画像圧縮手法が従来のコーデックよりも優れたパフォーマンスを発揮することが実証されています。
ただし、これらの方法に伴う固有の課題は、解釈可能性の欠如にあります。
さまざまな周波数帯域にわたるさまざまな程度の圧縮劣化の分析に続いて、周波数指向の変換によって促進されるエンドツーエンドの最適化された画像圧縮モデルを提案します。
提案されたエンドツーエンド画像圧縮モデルは、空間サンプリング、周波数指向変換、エントロピー推定、周波数認識融合の 4 つのコンポーネントで構成されます。
周波数指向の変換は、人間が解釈可能な概念に沿って、元の画像信号を個別の周波数帯域に分離します。
このモデルは、非重複仮説を活用して、任意の周波数成分の選択的な送信を通じてスケーラブルなコーディングを可能にします。
MS-SSIM メトリックにおいて、当社のモデルが次世代標準 H.266/VVC を含むすべての従来のコーデックよりも優れていることを実証するために、広範な実験が行われています。
さらに、提案された圧縮方法が信号レベルの精度に加えて意味的な忠実性を維持できることを検証するために、視覚的な分析タスク (つまり、オブジェクト検出とセマンティック セグメンテーション) が実行されます。

要約(オリジナル)

Image compression constitutes a significant challenge amidst the era of information explosion. Recent studies employing deep learning methods have demonstrated the superior performance of learning-based image compression methods over traditional codecs. However, an inherent challenge associated with these methods lies in their lack of interpretability. Following an analysis of the varying degrees of compression degradation across different frequency bands, we propose the end-to-end optimized image compression model facilitated by the frequency-oriented transform. The proposed end-to-end image compression model consists of four components: spatial sampling, frequency-oriented transform, entropy estimation, and frequency-aware fusion. The frequency-oriented transform separates the original image signal into distinct frequency bands, aligning with the human-interpretable concept. Leveraging the non-overlapping hypothesis, the model enables scalable coding through the selective transmission of arbitrary frequency components. Extensive experiments are conducted to demonstrate that our model outperforms all traditional codecs including next-generation standard H.266/VVC on MS-SSIM metric. Moreover, visual analysis tasks (i.e., object detection and semantic segmentation) are conducted to verify the proposed compression method could preserve semantic fidelity besides signal-level precision.

arxiv情報

著者 Yuefeng Zhang,Kai Lin
発行日 2024-01-16 08:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク