Can SAM Boost Video Super-Resolution?

要約

タイトル:SAMはビデオ超解像度を向上させることができるか?

要約:
– ビデオ超解像度(VSR)において最も重要な課題は、複数のフレームから情報を正確に集約することを困難にする大きな動きを処理することです。
– 既存の手法は、変形可能な畳み込みを採用するか、光学フローを事前に推定してフレーム間の対応を確立するために使用するという方法ですが、価値のある意味情報を考慮していないため、精度を大幅に向上させることができません。また、フローベースの方法は、2つの低解像度フレームが与えられた場合に正確なフローを提供しない可能性があるフロー推定モデルの精度に大きく依存します。
– 本論文では、優れた基礎モデルであるSegment Anything Model(SAM)を利用した強固で意味的な事前条件による高度なVSRについて調査しました。SAMベースの事前条件を使用するために、Semantic-guidEd refinEment Module(SEEM)という単純で効果的なモジュールを提案しました。この軽量でプラグイン可能なモジュールは、自己注意機構を利用して意味に富んだ特徴を生成することだけでなく、既存の方法に簡単かつシームレスに統合することを目的としています。
– 具体的には、私たちはSEEMを2つの代表的な方法であるEDVRとBasicVSRに適用し、Vimeo-90K、REDS、Vid4という3つの広く使用されているVSRデータセットで一貫して改善されたパフォーマンスを提供しました。
– さらに重要なことに、提案されたSEEMは、効果的な調整方法を提供することにより、既存の方法を高度化し、パフォーマンスとトレーニングパラメータのバランスを調整する柔軟性を増加させることができました。コードは近々オープンソース化される予定です。

要約(オリジナル)

The primary challenge in video super-resolution (VSR) is to handle large motions in the input frames, which makes it difficult to accurately aggregate information from multiple frames. Existing works either adopt deformable convolutions or estimate optical flow as a prior to establish correspondences between frames for the effective alignment and fusion. However, they fail to take into account the valuable semantic information that can greatly enhance it; and flow-based methods heavily rely on the accuracy of a flow estimate model, which may not provide precise flows given two low-resolution frames. In this paper, we investigate a more robust and semantic-aware prior for enhanced VSR by utilizing the Segment Anything Model (SAM), a powerful foundational model that is less susceptible to image degradation. To use the SAM-based prior, we propose a simple yet effective module — SAM-guidEd refinEment Module (SEEM), which can enhance both alignment and fusion procedures by the utilization of semantic information. This light-weight plug-in module is specifically designed to not only leverage the attention mechanism for the generation of semantic-aware feature but also be easily and seamlessly integrated into existing methods. Concretely, we apply our SEEM to two representative methods, EDVR and BasicVSR, resulting in consistently improved performance with minimal implementation effort, on three widely used VSR datasets: Vimeo-90K, REDS and Vid4. More importantly, we found that the proposed SEEM can advance the existing methods in an efficient tuning manner, providing increased flexibility in adjusting the balance between performance and the number of training parameters. Code will be open-source soon.

arxiv情報

著者 Zhihe Lu,Zeyu Xiao,Jiawang Bai,Zhiwei Xiong,Xinchao Wang
発行日 2023-05-11 02:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク