要約
フローベースの伝播と時空間トランスフォーマーは、ビデオ修復 (VI) の 2 つの主流のメカニズムです。
これらのコンポーネントの有効性にもかかわらず、パフォーマンスに影響を与えるいくつかの制限が依然として存在します。
以前の伝播ベースのアプローチは、画像ドメインまたは特徴ドメインのいずれかで個別に実行されます。
学習から切り離されたグローバルな画像の伝播は、不正確なオプティカル フローによる空間的な不整合を引き起こす可能性があります。
さらに、メモリまたは計算上の制約により、特徴伝播とビデオ Transformer の時間範囲が制限され、離れたフレームからの対応情報の探索が妨げられます。
これらの問題に対処するために、ProPainter と呼ばれる改良されたフレームワークを提案します。これには、強化された ProPagation と効率的な Transformer が含まれます。
具体的には、画像と特徴のワーピングの利点を組み合わせ、グローバル対応を確実に利用するデュアルドメイン伝播を導入します。
また、不要で冗長なトークンを破棄することで高効率を実現するマスクガイド付きスパースビデオトランスフォーマーも提案します。
これらのコンポーネントにより、ProPainter は魅力的な効率を維持しながら、PSNR で 1.46 dB という大幅なマージンで従来技術を上回ります。
要約(オリジナル)
Flow-based propagation and spatiotemporal Transformer are two mainstream mechanisms in video inpainting (VI). Despite the effectiveness of these components, they still suffer from some limitations that affect their performance. Previous propagation-based approaches are performed separately either in the image or feature domain. Global image propagation isolated from learning may cause spatial misalignment due to inaccurate optical flow. Moreover, memory or computational constraints limit the temporal range of feature propagation and video Transformer, preventing exploration of correspondence information from distant frames. To address these issues, we propose an improved framework, called ProPainter, which involves enhanced ProPagation and an efficient Transformer. Specifically, we introduce dual-domain propagation that combines the advantages of image and feature warping, exploiting global correspondences reliably. We also propose a mask-guided sparse video Transformer, which achieves high efficiency by discarding unnecessary and redundant tokens. With these components, ProPainter outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining appealing efficiency.
arxiv情報
著者 | Shangchen Zhou,Chongyi Li,Kelvin C. K. Chan,Chen Change Loy |
発行日 | 2023-09-07 17:57:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google