Computationally-Efficient Neural Image Compression with Shallow Decoders

要約

ニューラル画像圧縮方式は、近年ますます強力なパフォーマンスを見せています。
ただし、従来のコーデックに比べて計算が桁違いに複雑になるため、実際の展開が妨げられます。
この論文では、JPEG に似た浅い、または線形のデコード変換を使用することで、デコードの複雑さにおけるこのギャップを埋める方向に一歩前進しました。
結果として生じる圧縮パフォーマンスの低下を補うために、より強力なエンコーダ ネットワークと反復エンコードを採用することで、エンコードとデコードの間で非対称になりがちな計算量を活用します。
私たちは背後にある直観を理論的に定式化し、実験結果はニューラル画像圧縮におけるレート歪みとデコードの複雑さの間のトレードオフにおける新たな境地を確立しました。
具体的には、Minnen らの確立された平均スケールのハイパープリア アーキテクチャに匹敵するレート歪み性能を達成します。
(2018) 50K デコード FLOP/ピクセル未満で、ベースライン全体のデコード複雑さが 80% 削減され、合成変換だけで 90% 以上削減されました。
私たちのコードは https://github.com/mandt-lab/shallow-ntc にあります。

要約(オリジナル)

Neural image compression methods have seen increasingly strong performance in recent years. However, they suffer orders of magnitude higher computational complexity compared to traditional codecs, which hinders their real-world deployment. This paper takes a step forward towards closing this gap in decoding complexity by using a shallow or even linear decoding transform resembling that of JPEG. To compensate for the resulting drop in compression performance, we exploit the often asymmetrical computation budget between encoding and decoding, by adopting more powerful encoder networks and iterative encoding. We theoretically formalize the intuition behind, and our experimental results establish a new frontier in the trade-off between rate-distortion and decoding complexity for neural image compression. Specifically, we achieve rate-distortion performance competitive with the established mean-scale hyperprior architecture of Minnen et al. (2018) at less than 50K decoding FLOPs/pixel, reducing the baseline’s overall decoding complexity by 80%, or over 90% for the synthesis transform alone. Our code can be found at https://github.com/mandt-lab/shallow-ntc.

arxiv情報

著者 Yibo Yang,Stephan Mandt
発行日 2023-11-10 17:14:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク