要約
非可逆画像コーディングは、主に画像のレート歪み関数によって制限されるコンピューティング技術です。
この限界は、決して正確には特徴付けられていませんが、近年、ディープラーニング技術を介して実際にアプローチされています。
実際、学習された画像符号化スキームは、統合レート歪みコストを直接最適化できるため、手作りの画像符号化スキームよりも大幅にパフォーマンスが優れています。
それでもなお、学習された画像符号化のレート歪み性能にはさらなる改善の余地があることが観察されています。
この記事では、シャノンの情報理論によって予測された理想的なレート歪み関数と、最先端の学習画像符号化スキームによって達成される経験的なレート歪み関数との間のギャップを特定し、そのギャップは次の 5 つの要素によって生じていることを明らかにしました。
さまざまな効果: モデリング効果、近似効果、償却効果、デジタル化効果、漸近効果。
私たちは、最後の 3 つの効果を定量的に評価するためのシミュレーションと実験を設計します。これは、将来の非可逆画像符号化テクノロジの高い可能性を実証します。
要約(オリジナル)
Lossy image coding is the art of computing that is principally bounded by the image’s rate-distortion function. This bound, though never accurately characterized, has been approached practically via deep learning technologies in recent years. Indeed, learned image coding schemes allow direct optimization of the joint rate-distortion cost, thereby outperforming the handcrafted image coding schemes by a large margin. Still, it is observed that there is room for further improvement in the rate-distortion performance of learned image coding. In this article, we identify the gap between the ideal rate-distortion function forecasted by Shannon’s information theory and the empirical rate-distortion function achieved by the state-of-the-art learned image coding schemes, revealing that the gap is incurred by five different effects: modeling effect, approximation effect, amortization effect, digitization effect, and asymptotic effect. We design simulations and experiments to quantitively evaluate the last three effects, which demonstrates the high potential of future lossy image coding technologies.
arxiv情報
著者 | Haotian Zhang,Dong Liu |
発行日 | 2025-01-21 17:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google