Deficiency-Aware Masked Transformer for Video Inpainting

要約

最近のビデオ修復手法は、オプティカル フローなどの明示的なガイダンスを利用してフレーム間ピクセルを伝播することで目覚ましい進歩を遂げています。
ただし、マスクされたビデオのクロスフレーム反復が利用できない場合があり、その結果、不備が生じます。
このような状況では、他のフレームからピクセルを借用する代わりに、モデルの焦点は逆問題に対処することに移ります。
このペーパーでは、3 つの主要な利点を提供する、Deficiency-aware Masked Transformer (DMT) と呼ばれるデュアル モダリティ互換の修復フレームワークを紹介します。
まず、画像修復モデル DMT_img を事前学習し、ビデオ モデル DMT_vid を蒸留するための事前学習として機能させます。これにより、欠乏の場合の幻覚に利益をもたらします。
第 2 に、セルフ アテンション モジュールは時空間トークンを選択的に組み込んで推論を加速し、ノイズ信号を除去します。
第三に、シンプルだが効果的な Receptive Field Contextualizer が DMT に統合され、パフォーマンスがさらに向上します。
YouTube-VOS および DAVIS データセットに対して行われた広範な実験により、DMT_vid が以前のソリューションを大幅に上回ることが実証されました。
コードとビデオのデモは、github.com/yeates/DMT でご覧いただけます。

要約(オリジナル)

Recent video inpainting methods have made remarkable progress by utilizing explicit guidance, such as optical flow, to propagate cross-frame pixels. However, there are cases where cross-frame recurrence of the masked video is not available, resulting in a deficiency. In such situation, instead of borrowing pixels from other frames, the focus of the model shifts towards addressing the inverse problem. In this paper, we introduce a dual-modality-compatible inpainting framework called Deficiency-aware Masked Transformer (DMT), which offers three key advantages. Firstly, we pretrain a image inpainting model DMT_img serve as a prior for distilling the video model DMT_vid, thereby benefiting the hallucination of deficiency cases. Secondly, the self-attention module selectively incorporates spatiotemporal tokens to accelerate inference and remove noise signals. Thirdly, a simple yet effective Receptive Field Contextualizer is integrated into DMT, further improving performance. Extensive experiments conducted on YouTube-VOS and DAVIS datasets demonstrate that DMT_vid significantly outperforms previous solutions. The code and video demonstrations can be found at github.com/yeates/DMT.

arxiv情報

著者 Yongsheng Yu,Heng Fan,Libo Zhang
発行日 2023-07-17 16:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク