End-to-end Transformer for Compressed Video Quality Enhancement

要約

畳み込みニューラル ネットワークは、近年、圧縮ビデオの品質向上タスクで優れた結果を達成しています。
最先端の方法は、主に変形可能な畳み込みによって、隣接するフレームの時空間情報を調査します。
ただし、変形可能な畳み込みのオフセット フィールドはトレーニングが難しく、トレーニング中の不安定性によってオフセット オーバーフローが発生することが多く、相関モデリングの効率が低下します。
この作業では、Swin-AutoEncoderベースの時空間機能融合(SSTF)モジュールとチャネルごとの注意ベースの品質向上(CAQE)モジュールで構成される、トランスベースの圧縮ビデオ品質向上(TVQE)方法を提案します。
提案された SSTF モジュールは、相関モデリングの能力を向上させる Swin-AutoEncoder の助けを借りて、ローカルとグローバルの両方の機能を学習します。
一方、ウィンドウメカニズムベースの Swin Transformer とエンコーダーデコーダー構造により、実行効率が大幅に向上します。
一方、提案されたCAQEモジュールは、特徴マップ内のチャネル間の時間情報を集約するチャネルアテンションを計算し、最終的にフレーム間情報の効率的な融合を実現します。
JCT-VTテストシーケンスに関する広範な実験結果は、提案された方法が主観的品質と客観的品質の両方で平均してより良いパフォーマンスを達成することを示しています。
一方、提案手法は、推論速度と GPU 消費の両方の点で既存の手法よりも優れています。

要約(オリジナル)

Convolutional neural networks have achieved excellent results in compressed video quality enhancement task in recent years. State-of-the-art methods explore the spatiotemporal information of adjacent frames mainly by deformable convolution. However, offset fields in deformable convolution are difficult to train, and its instability in training often leads to offset overflow, which reduce the efficiency of correlation modeling. In this work, we propose a transformer-based compressed video quality enhancement (TVQE) method, consisting of Swin-AutoEncoder based Spatio-Temporal feature Fusion (SSTF) module and Channel-wise Attention based Quality Enhancement (CAQE) module. The proposed SSTF module learns both local and global features with the help of Swin-AutoEncoder, which improves the ability of correlation modeling. Meanwhile, the window mechanism-based Swin Transformer and the encoderdecoder structure greatly improve the execution efficiency. On the other hand, the proposed CAQE module calculates the channel attention, which aggregates the temporal information between channels in the feature map, and finally achieves the efficient fusion of inter-frame information. Extensive experimental results on the JCT-VT test sequences show that the proposed method achieves better performance in average for both subjective and objective quality. Meanwhile, our proposed method outperforms existing ones in terms of both inference speed and GPU consumption.

arxiv情報

著者 Li Yu,Wenshuai Chang,Shiyu Wu,Moncef Gabbouj
発行日 2022-10-25 08:12:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク