Region-Adaptive Transform with Segmentation Prior for Image Compression

要約

学習型画像圧縮 (LIC) は、近年目覚ましい進歩を見せています。
既存の作品は一般に、圧縮のための変換方法として CNN ベースまたはセルフアテンション ベースのモジュールを採用しています。
しかし、特定の領域に焦点を当てた神経変換に関する先行研究はありません。
これに応えて、領域に適応したコンテキスト情報を抽出するためのクラスに依存しないセグメンテーション マスク (つまり、カテゴリ ラベルのないセマンティック マスク) を導入します。
私たちが提案するモジュールである領域適応変換は、マスクによってガイドされたさまざまな領域に適応畳み込みを適用します。
さらに、さまざまな地域のリッチ コンテキストを組み込むために、Scale Affine Layer というプラグ アンド プレイ モジュールを導入します。
追加の中間入力としてセグメンテーション マスクを使用する画像圧縮の取り組みは以前にもありましたが、私たちのアプローチはそれらとは大きく異なります。
私たちの利点は、余分なビットレートのオーバーヘッドを避けるために、これらのマスクを特権情報として扱うことであり、モデルのトレーニング段階ではアクセス可能ですが、推論段階では必要ありません。
私たちの知る限り、当社はクラスに依存しないマスクを特権情報として採用し、ピーク信号対雑音比 (PSNR) などのピクセル忠実度メトリクスで優れたパフォーマンスを達成した最初の企業です。
実験結果は、VTM-17.0 と比較してビットレートを約 8.2% 節約することで、以前のパフォーマンスの優れた方法と比較して改善を示しています。
ソース コードは https://github.com/GityuxiLiu/SegPIC-for-Image-Compression で入手できます。

要約(オリジナル)

Learned Image Compression (LIC) has shown remarkable progress in recent years. Existing works commonly employ CNN-based or self-attention-based modules as transform methods for compression. However, there is no prior research on neural transform that focuses on specific regions. In response, we introduce the class-agnostic segmentation masks (i.e. semantic masks without category labels) for extracting region-adaptive contextual information. Our proposed module, Region-Adaptive Transform, applies adaptive convolutions on different regions guided by the masks. Additionally, we introduce a plug-and-play module named Scale Affine Layer to incorporate rich contexts from various regions. While there have been prior image compression efforts that involve segmentation masks as additional intermediate inputs, our approach differs significantly from them. Our advantages lie in that, to avoid extra bitrate overhead, we treat these masks as privilege information, which is accessible during the model training stage but not required during the inference phase. To the best of our knowledge, we are the first to employ class-agnostic masks as privilege information and achieve superior performance in pixel-fidelity metrics, such as Peak Signal to Noise Ratio (PSNR). The experimental results demonstrate our improvement compared to previously well-performing methods, with about 8.2% bitrate saving compared to VTM-17.0. The source code is available at https://github.com/GityuxiLiu/SegPIC-for-Image-Compression.

arxiv情報

著者 Yuxi Liu,Wenhan Yang,Huihui Bai,Yunchao Wei,Yao Zhao
発行日 2024-07-09 17:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク