You Only Align Once: Bidirectional Interaction for Spatial-Temporal Video Super-Resolution

要約

時空間ビデオ超解像(ST-VSR)テクノロジーは、より高い解像度とより高いフレームレートで高品質のビデオを生成します。
既存の高度な方法は、空間および時間ビデオ超解像(S-VSRおよびT-VSR)の関連付けを通じて、ST-VSRタスクを実行します。
これらの方法では、S-VSRとT-VSRで2つのアライメントと融合が必要ですが、これは明らかに冗長であり、連続する空間LRフレームの情報フローを十分に調査できません。
すべての入力フレームをカバーするために双方向学習(未来から過去および過去から未来)が導入されましたが、最終予測の直接融合では、双方向モーション学習とすべてのフレームからの空間情報の固有の相関関係を十分に活用できません。
ST-VSRの双方向相互作用を備えた、効果的でありながら効率的なリカレントネットワークを提案します。このネットワークでは、1つのアライメントとフュージョンのみが必要です。
具体的には、最初に未来から過去への後方推論を実行し、次に前方推論に従って中間フレームを超解像します。
後方推論と前方推論は、構造と詳細を学習するために割り当てられ、共同最適化によって学習タスクを簡素化します。
さらに、Hybrid Fusion Module(HFM)は、情報を集約および抽出して、空間情報を改良し、高品質のビデオフレームを再構築するように設計されています。
2つの公開データセットでの広範な実験は、私たちの方法が最先端の方法よりも効率が優れており、計算コストを約22%削減することを示しています。

要約(オリジナル)

Spatial-Temporal Video Super-Resolution (ST-VSR) technology generates high-quality videos with higher resolution and higher frame rates. Existing advanced methods accomplish ST-VSR tasks through the association of Spatial and Temporal video super-resolution (S-VSR and T-VSR). These methods require two alignments and fusions in S-VSR and T-VSR, which is obviously redundant and fails to sufficiently explore the information flow of consecutive spatial LR frames. Although bidirectional learning (future-to-past and past-to-future) was introduced to cover all input frames, the direct fusion of final predictions fails to sufficiently exploit intrinsic correlations of bidirectional motion learning and spatial information from all frames. We propose an effective yet efficient recurrent network with bidirectional interaction for ST-VSR, where only one alignment and fusion is needed. Specifically, it first performs backward inference from future to past, and then follows forward inference to super-resolve intermediate frames. The backward and forward inferences are assigned to learn structures and details to simplify the learning task with joint optimizations. Furthermore, a Hybrid Fusion Module (HFM) is designed to aggregate and distill information to refine spatial information and reconstruct high-quality video frames. Extensive experiments on two public datasets demonstrate that our method outperforms state-of-the-art methods in efficiency, and reduces calculation cost by about 22%.

arxiv情報

著者 Mengshun Hu,Kui Jiang,Zhixiang Nie,Zheng Wang
発行日 2022-07-13 17:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク