Compression-Realized Deep Structural Network for Video Quality Enhancement

要約

このペーパーでは、圧縮ビデオの品質向上のタスクに焦点を当てます。
ディープ ネットワーク ベースのビデオ復元プログラムは目覚ましい進歩を遂げていますが、既存の方法のほとんどには、圧縮コーデック内の事前分布を最適に活用するための構造化された設計が欠けています。
ビデオの品質低下は主に圧縮アルゴリズムによって引き起こされるため、より「意識的な」品質向上プロセスのための新しいパラダイムが緊急に必要とされています。
その結果、私たちは、古典的な圧縮コーデックの 3 つの主要なプロセスに合わせて 3 つの誘導バイアスを導入し、古典的なエンコーダ アーキテクチャの強みとディープ ネットワーク機能を融合する Compression-Realized Deep Structural Network (CRDS) を提案します。
コーデックの残差抽出およびドメイン変換プロセスにインスピレーションを得て、ビデオ フレームを潜在特徴空間に変換するための事前トレーニング済み潜在劣化残差自動エンコーダーが提案され、正確な動き推定と残差抽出のために相互近傍アテンション メカニズムが統合されています。

さらに、CRDS はコーデックの量子化ノイズ分布からインスピレーションを得て、品質向上を一連の単純なノイズ除去サブタスクに分解する中間監視を備えた新しいプログレッシブノイズ除去フレームワークを提案しています。
LDV 2.0 や MFQE 2.0 などのデータセットに関する実験結果は、私たちのアプローチが最先端のモデルを超えていることを示しています。

要約(オリジナル)

This paper focuses on the task of quality enhancement for compressed videos. Although deep network-based video restorers achieve impressive progress, most of the existing methods lack a structured design to optimally leverage the priors within compression codecs. Since the quality degradation of the video is primarily induced by the compression algorithm, a new paradigm is urgently needed for a more “conscious” process of quality enhancement. As a result, we propose the Compression-Realized Deep Structural Network (CRDS), introducing three inductive biases aligned with the three primary processes in the classic compression codec, merging the strengths of classical encoder architecture with deep network capabilities. Inspired by the residual extraction and domain transformation process in the codec, a pre-trained Latent Degradation Residual Auto-Encoder is proposed to transform video frames into a latent feature space, and the mutual neighborhood attention mechanism is integrated for precise motion estimation and residual extraction. Furthermore, drawing inspiration from the quantization noise distribution of the codec, CRDS proposes a novel Progressive Denoising framework with intermediate supervision that decomposes the quality enhancement into a series of simpler denoising sub-tasks. Experimental results on datasets like LDV 2.0 and MFQE 2.0 indicate our approach surpasses state-of-the-art models.

arxiv情報

著者 Hanchi Sun,Xiaohong Liu,Xinyang Jiang,Yifei Shen,Dongsheng Li,Xiongkuo Min,Guangtao Zhai
発行日 2024-08-20 13:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク