Video Instance Matting

要約

従来のビデオマッティングでは、個々のインスタンスが区別されないように、ビデオフレームに出現するすべてのインスタンスに対して 1 つのアルファマットが出力されます。
ビデオインスタンスのセグメンテーションは時間の一貫したインスタンスマスクを提供しますが、結果は、特に二値化が適用されているため、マットアプリケーションにとっては満足のいくものではありません。
この欠点を解決するために、ビデオインスタンスマッティング~(VIM)、つまりビデオシーケンスの各フレームで各インスタンスのアルファマットを推定することを提案します。
この困難な問題に取り組むために、VIM の新しいベースラインモデルとして、マスクシーケンスガイド付きビデオインスタンスマッティングニューラルネットワークである MSG-VIM を紹介します。
MSG-VIM は、マスク拡張を組み合わせて利用し、不正確で一貫性のないマスクガイダンスに対して堅牢な予測を実現します。
時間マスクと時間特徴ガイダンスを組み込んで、アルファマット予測の時間的一貫性を向上させます。
さらに、VIM50 と呼ばれる VIM の新しいベンチマークを構築します。これは、前景オブジェクトとして複数の人間のインスタンスを含む 50 個のビデオクリップで構成されます。
VIM タスクのパフォーマンスを評価するために、Video Instance-aware Matting Quality~(VIMQ) と呼ばれる適切なメトリックを導入します。
私たちが提案するモデル MSG-VIM は、VIM50 ベンチマークに強力なベースラインを設定し、既存の手法を大幅に上回ります。
このプロジェクトは https://github.com/SHI-Labs/VIM でオープンソース化されています。

要約(オリジナル)

Conventional video matting outputs one alpha matte for all instances appearing in a video frame so that individual instances are not distinguished. While video instance segmentation provides time-consistent instance masks, results are unsatisfactory for matting applications, especially due to applied binarization. To remedy this deficiency, we propose Video Instance Matting~(VIM), that is, estimating alpha mattes of each instance at each frame of a video sequence. To tackle this challenging problem, we present MSG-VIM, a Mask Sequence Guided Video Instance Matting neural network, as a novel baseline model for VIM. MSG-VIM leverages a mixture of mask augmentations to make predictions robust to inaccurate and inconsistent mask guidance. It incorporates temporal mask and temporal feature guidance to improve the temporal consistency of alpha matte predictions. Furthermore, we build a new benchmark for VIM, called VIM50, which comprises 50 video clips with multiple human instances as foreground objects. To evaluate performances on the VIM task, we introduce a suitable metric called Video Instance-aware Matting Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50 benchmark and outperforms existing methods by a large margin. The project is open-sourced at https://github.com/SHI-Labs/VIM.

arxiv情報

著者	Jiachen Li,Roberto Henschel,Vidit Goel,Marianna Ohanyan,Shant Navasardyan,Humphrey Shi
発行日	2023-11-08 05:30:54+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Video Instance Matting

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー