DeViT: Deformed Vision Transformers in Video Inpainting

要約

この論文では、新しいビデオ修復方法を提案します。
私たちは 3 つの主な貢献を行っています。まず、Deformed Patch-based Homography (DePtH) を導入することで、以前の Transformers をパッチ アライメントで拡張しました。Deformed Patch-based Homography は、追加の監視なしでパッチ レベルの機能アライメントを改善し、さまざまな変形を伴う困難なシーンに役立ちます。
次に、Mask Pruning-based Patch Attention (MPPA) を導入して、重要度の低い特徴を取り除き、顕著性マップを使用することで、パッチごとの特徴マッチングを改善します。
MPPA は、ワープされたトークンと無効なピクセルとの照合精度を高めます。
3 番目に、時空間加重アダプター (STA) モジュールを導入して、DePtH から学習した変形係数のガイダンスの下で、特に機敏な動きを伴うビデオの時空間トークンに正確な注意を向けます。
実験結果は、私たちの方法が最近の方法よりも質的および量的に優れており、新しい最先端技術を達成していることを示しています。

要約(オリジナル)

This paper proposes a novel video inpainting method. We make three main contributions: First, we extended previous Transformers with patch alignment by introducing Deformed Patch-based Homography (DePtH), which improves patch-level feature alignments without additional supervision and benefits challenging scenes with various deformation. Second, we introduce Mask Pruning-based Patch Attention (MPPA) to improve patch-wised feature matching by pruning out less essential features and using saliency map. MPPA enhances matching accuracy between warped tokens with invalid pixels. Third, we introduce a Spatial-Temporal weighting Adaptor (STA) module to obtain accurate attention to spatial-temporal tokens under the guidance of the Deformation Factor learned from DePtH, especially for videos with agile motions. Experimental results demonstrate that our method outperforms recent methods qualitatively and quantitatively and achieves a new state-of-the-art.

arxiv情報

著者 Jiayin Cai,Changlin Li,Xin Tao,Chun Yuan,Yu-Wing Tai
発行日 2022-09-28 08:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク