要約
変換モデルとエントロピー モデルは、深層画像圧縮ニューラル ネットワークの 2 つのコア コンポーネントです。
既存の学習ベースの画像圧縮方法のほとんどは、畳み込みベースの変換を利用していますが、主に畳み込み演算の受容野が限られているため、長距離の依存関係をモデル化する機能が不足しています。
この制限に対処するために、Transformer ベースの非線形変換を提案します。
この変換には、入力画像からローカル情報とグローバル情報の両方を効率的に取得する驚くべき能力があり、より無相関な潜在表現が得られます。
さらに、潜在表現のクロスチャネル依存性と空間依存性をモデル化するために 2 つの異なるハイパープリアを組み込んだ新しいエントロピー モデルを導入します。
エントロピー モデルをさらに改善するために、遠い関係を活用して現在の潜在性をより正確に予測するグローバル コンテキストを追加します。
このグローバル コンテキストでは、因果的注意メカニズムを採用して、コンテンツに依存した方法で長距離情報を抽出します。
私たちの実験では、レート歪み性能の点で、私たちが提案したフレームワークが最先端の方法よりも優れたパフォーマンスを発揮することが示されています。
要約(オリジナル)
Transform and entropy models are the two core components in deep image compression neural networks. Most existing learning-based image compression methods utilize convolutional-based transform, which lacks the ability to model long-range dependencies, primarily due to the limited receptive field of the convolution operation. To address this limitation, we propose a Transformer-based nonlinear transform. This transform has the remarkable ability to efficiently capture both local and global information from the input image, leading to a more decorrelated latent representation. In addition, we introduce a novel entropy model that incorporates two different hyperpriors to model cross-channel and spatial dependencies of the latent representation. To further improve the entropy model, we add a global context that leverages distant relationships to predict the current latent more accurately. This global context employs a causal attention mechanism to extract long-range information in a content-dependent manner. Our experiments show that our proposed framework performs better than the state-of-the-art methods in terms of rate-distortion performance.
arxiv情報
著者 | Atefeh Khoshkhahtinat,Ali Zafari,Piyush M. Mehta,Mohammad Akyash,Hossein Kashiani,Nasser M. Nasrabadi |
発行日 | 2023-09-19 17:44:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google