OMR-NET: a two-stage octave multi-scale residual network for screen content image compression


スクリーン コンテンツ (SC) は、ノイズのない、繰り返しパターン、高コントラストなどの独特の特性を持つ自然シーン (NS) とは異なります。
SC に対する現在の学習済み画像圧縮 (LIC) 法の不十分な点に対処することを目的として、高周波および低周波の特徴抽出のための改良された 2 段階のオクターブ畳み込み残差ブロック (IToRB) およびカスケードされた 2 段階のマルチスケール残差ブロックを提案します。
(CTMSRB) SC におけるマルチスケール学習と非線形性を改善します。
さらに、ウィンドウベースのアテンション モジュール (WAM) を採用して、特に画像内の高コントラスト領域のピクセル相関をキャプチャします。
また、テキスト、チャート、グラフィックス、アニメーション、映画、ゲーム、および SC 画像と NS 画像の混合を含む、トレーニング用の多様な SC 画像圧縮データセット (SDU-SCICD2K) を構築します。
コードは Net.git で公開されています。


Screen content (SC) differs from natural scene (NS) with unique characteristics such as noise-free, repetitive patterns, and high contrast. Aiming at addressing the inadequacies of current learned image compression (LIC) methods for SC, we propose an improved two-stage octave convolutional residual blocks (IToRB) for high and low-frequency feature extraction and a cascaded two-stage multi-scale residual blocks (CTMSRB) for improved multi-scale learning and nonlinearity in SC. Additionally, we employ a window-based attention module (WAM) to capture pixel correlations, especially for high contrast regions in the image. We also construct a diverse SC image compression dataset (SDU-SCICD2K) for training, including text, charts, graphics, animation, movie, game and mixture of SC images and NS images. Experimental results show our method, more suited for SC than NS data, outperforms existing LIC methods in rate-distortion performance on SC images. The code is publicly available at Net.git.


著者 Shiqi Jiang,Ting Ren,Congrui Fu,Shuai Li,Hui Yuan
発行日 2024-07-11 14:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, eess.IV パーマリンク