Semantic Lens: Instance-Centric Semantic Alignment for Video Super-Resolution

要約

ビデオ超解像度 (VSR) の重要な手がかりとして、フレーム間のアライメントは全体のパフォーマンスに大きな影響を与えます。
ただし、ビデオには複雑な動きが織り込まれているため、正確なピクセルレベルの位置合わせは困難な作業です。
この問題に対応して、劣化したビデオから抽出された意味論的事前分布を前提とした、セマンティック レンズと呼ばれる VSR の新しいパラダイムを導入します。
具体的には、ビデオは Semantic Extractor を介してインスタンス、イベント、シーンとしてモデル化されます。
これらのセマンティクスは、Pixel Enhancer が復元されたコンテンツを理解し、より現実的な視覚結果を生成するのに役立ちます。
抽出されたグローバル セマンティクスは各フレームのシーン情報を具体化し、インスタンス固有のセマンティクスは各インスタンスに関連する時空間コンテキストを組み立てます。
さらに、グローバル パースペクティブ シフター (GPS) とインスタンス固有のセマンティック エンベディング エンコーダー (ISEE) で構成される、ピクセル レベルの特徴とセマンティックな知識を橋渡しするためのセマンティクス パワード アテンション クロスエンベディング (SPACE) ブロックを考案しました。
具体的には、GPS モジュールは、グローバル セマンティクスを条件としたピクセル レベルの特徴変調のためのアフィン変換パラメータのペアを生成します。
その後、ISEE モジュールはアテンション メカニズムを利用して、インスタンス中心の意味空間内で隣接するフレームを位置合わせします。
さらに、モデルトレーニングの難しさを軽減するために、シンプルかつ効果的な事前調整モジュールを組み込みます。
広範な実験により、既存の最先端の VSR 手法に対する私たちのモデルの優位性が実証されています。

要約(オリジナル)

As a critical clue of video super-resolution (VSR), inter-frame alignment significantly impacts overall performance. However, accurate pixel-level alignment is a challenging task due to the intricate motion interweaving in the video. In response to this issue, we introduce a novel paradigm for VSR named Semantic Lens, predicated on semantic priors drawn from degraded videos. Specifically, video is modeled as instances, events, and scenes via a Semantic Extractor. Those semantics assist the Pixel Enhancer in understanding the recovered contents and generating more realistic visual results. The distilled global semantics embody the scene information of each frame, while the instance-specific semantics assemble the spatial-temporal contexts related to each instance. Furthermore, we devise a Semantics-Powered Attention Cross-Embedding (SPACE) block to bridge the pixel-level features with semantic knowledge, composed of a Global Perspective Shifter (GPS) and an Instance-Specific Semantic Embedding Encoder (ISEE). Concretely, the GPS module generates pairs of affine transformation parameters for pixel-level feature modulation conditioned on global semantics. After that, the ISEE module harnesses the attention mechanism to align the adjacent frames in the instance-centric semantic space. In addition, we incorporate a simple yet effective pre-alignment module to alleviate the difficulty of model training. Extensive experiments demonstrate the superiority of our model over existing state-of-the-art VSR methods.

arxiv情報

著者 Qi Tang,Yao Zhao,Meiqin Liu,Jian Jin,Chao Yao
発行日 2024-01-19 12:18:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク