Exploiting Latent Properties to Optimize Neural Codecs

要約

エンドツーエンドの画像およびビデオコーデックは、何十年にもわたる手作業によるエンジニアリングの努力によって開発されてきた従来の圧縮技術と比較して、ますます競争力を増している。このような学習可能なコーデックには、知覚的な歪みメトリクスへの素直な適応や、学習能力による特定分野での高い性能など、従来の技術に対する多くの利点がある。しかし、現在の最先端のニューラル・コーデックは、ベクトル量子化の利点と復号化装置におけるエントロピー勾配の存在を十分に利用していない。本論文では、この2つの特性(ベクトル量子化とエントロピー勾配)を活用して、市販のコーデックの性能を向上させることを提案する。まず、一様でないスカラー量子化を使用すると、一様量子化よりも性能が向上しないことを示す。したがって、性能を改善するために、あらかじめ定義された最適な一様ベクトル量子化を使用することを提案する。第二に、デコーダで利用可能なエントロピー勾配は、デコーダでは利用できない再構成誤差勾配と相関があることを示す。したがって、圧縮性能を向上させるために、前者を代理として使用する。我々の実験結果によると、これらのアプローチにより、様々な事前学習済みの方法において、同じ品質でレートを1~3%節約することができる。さらに、エントロピー勾配に基づくソリューションは、従来のコーデックの性能も大幅に向上させる。

要約(オリジナル)

End-to-end image and video codecs are becoming increasingly competitive, compared to traditional compression techniques that have been developed through decades of manual engineering efforts. These trainable codecs have many advantages over traditional techniques, such as their straightforward adaptation to perceptual distortion metrics and high performance in specific fields thanks to their learning ability. However, current state-of-the-art neural codecs do not fully exploit the benefits of vector quantization and the existence of the entropy gradient in decoding devices. In this paper, we propose to leverage these two properties (vector quantization and entropy gradient) to improve the performance of off-the-shelf codecs. Firstly, we demonstrate that using non-uniform scalar quantization cannot improve performance over uniform quantization. We thus suggest using predefined optimal uniform vector quantization to improve performance. Secondly, we show that the entropy gradient, available at the decoder, is correlated with the reconstruction error gradient, which is not available at the decoder. We therefore use the former as a proxy to enhance compression performance. Our experimental results show that these approaches save between 1 to 3% of the rate for the same quality across various pretrained methods. In addition, the entropy gradient based solution improves traditional codec performance significantly as well.

arxiv情報

著者 Muhammet Balcilar,Bharath Bhushan Damodaran,Karam Naser,Franck Galpin,Pierre Hellier
発行日 2025-01-02 12:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T07, cs.CV, cs.LG, I.4.2 パーマリンク