Space-Time Attention with Shifted Non-Local Search

要約

動画のアテンションマップを効率的に計算することは、フレーム間のオブジェクトの動きのために困難である。標準的な非局所探索は各クエリ点を囲むウィンドウに対して高品質であるが、ウィンドウのサイズが小さいため動きに対応できない。長距離の動きに対応する方法は、補助ネットワークを用いて、各クエリー位置からのオフセットとして、最も類似したキー座標を予測する。しかし、このオフセットの流れ場を正確に予測することは、大規模なネットワークであっても依然として困難である。小さな空間的不正確さは注意モジュールの品質に大きく影響する。本稿では、非局所探索の品質と予測されるオフセットの範囲を組み合わせた探索戦略を提案する。シフト非局所探索と名付けられたこの手法は、小さな空間誤差を修正するために、予測されたオフセットを囲む小さなグリッド探索を実行する。我々の手法のインプレース計算は、従来の研究よりも10倍少ないメモリ消費で、3倍以上高速である。実験的には、小さな空間誤差を修正することで、ビデオフレームのアライメント品質が3dB PSNR以上向上した。我々の探索は既存の時空間注意モジュールをアップグレードし、全体の実行時間を7.5%増加させながら、ビデオのノイズ除去結果を0.30dB PSNR向上させる。我々の時空間アテンションモジュールをUNetライクなアーキテクチャに統合することで、ビデオデノイジングにおいて最先端の結果を達成する。

要約(オリジナル)

Efficiently computing attention maps for videos is challenging due to the motion of objects between frames. While a standard non-local search is high-quality for a window surrounding each query point, the window’s small size cannot accommodate motion. Methods for long-range motion use an auxiliary network to predict the most similar key coordinates as offsets from each query location. However, accurately predicting this flow field of offsets remains challenging, even for large-scale networks. Small spatial inaccuracies significantly impact the attention module’s quality. This paper proposes a search strategy that combines the quality of a non-local search with the range of predicted offsets. The method, named Shifted Non-Local Search, executes a small grid search surrounding the predicted offsets to correct small spatial errors. Our method’s in-place computation consumes 10 times less memory and is over 3 times faster than previous work. Experimentally, correcting the small spatial errors improves the video frame alignment quality by over 3 dB PSNR. Our search upgrades existing space-time attention modules, which improves video denoising results by 0.30 dB PSNR for a 7.5% increase in overall runtime. We integrate our space-time attention module into a UNet-like architecture to achieve state-of-the-art results on video denoising.

arxiv情報

著者 Kent Gauen,Stanley Chan
発行日 2023-12-04 16:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク