Towards Imbalanced Motion: Part-Decoupling Network for Video Portrait Segmentation

要約

ビデオ ポートレート セグメンテーション (VPS) は、ビデオ フレームから目立つ前景ポートレートをセグメント化することを目的としており、近年大きな注目を集めています。
ただし、既存の VPS データセットは単純であるため、このタスクの広範な調査には制限が生じます。
この研究では、7 つのシナリオ カテゴリの 101 個のビデオ クリップで構成される新しい複雑な大規模マルチシーン ビデオ ポートレート セグメンテーション データセット MVPS を提案します。このデータセットでは、10,843 個のサンプル フレームがピクセル レベルで細かく注釈付けされています。
データセットには多様なシーンと複雑な背景環境があり、私たちの知る限りでは VPS で最も複雑なデータセットです。
データセットの構築中にポートレートを含む多数のビデオを観察した結果、人体の関節構造により、ポートレートの動きは部分的に関連付けられており、異なる部分の動きが比較的独立していることがわかりました。
つまり、ポートレートのさまざまな部分の動きがアンバランスになっています。
この不均衡に対して、直感的かつ合理的な考えは、ポートレートをパーツに分離することで、ポートレート内のさまざまな動きの状態をよりうまく活用できるということです。
これを達成するために、ビデオ ポートレート セグメンテーション用の Part-Decoupling Network (PDNet) を提案します。
具体的には、ポートレートを教師なしでパーツに分割し、それぞれの異なるパーツに指定された識別特徴に対する異なる注意力を利用する、フレーム間パーツ判別注意(IPDA)モジュールが提案されています。
これにより、動きのアンバランスな人物部分に適切に注目して、部位ごとの相関関係を抽出することができ、より正確に人物を分割することができる。
実験結果は、私たちの方法が最先端の方法と比較して優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Video portrait segmentation (VPS), aiming at segmenting prominent foreground portraits from video frames, has received much attention in recent years. However, simplicity of existing VPS datasets leads to a limitation on extensive research of the task. In this work, we propose a new intricate large-scale Multi-scene Video Portrait Segmentation dataset MVPS consisting of 101 video clips in 7 scenario categories, in which 10,843 sampled frames are finely annotated at pixel level. The dataset has diverse scenes and complicated background environments, which is the most complex dataset in VPS to our best knowledge. Through the observation of a large number of videos with portraits during dataset construction, we find that due to the joint structure of human body, motion of portraits is part-associated, which leads that different parts are relatively independent in motion. That is, motion of different parts of the portraits is imbalanced. Towards this imbalance, an intuitive and reasonable idea is that different motion states in portraits can be better exploited by decoupling the portraits into parts. To achieve this, we propose a Part-Decoupling Network (PDNet) for video portrait segmentation. Specifically, an Inter-frame Part-Discriminated Attention (IPDA) module is proposed which unsupervisedly segments portrait into parts and utilizes different attentiveness on discriminative features specified to each different part. In this way, appropriate attention can be imposed to portrait parts with imbalanced motion to extract part-discriminated correlations, so that the portraits can be segmented more accurately. Experimental results demonstrate that our method achieves leading performance with the comparison to state-of-the-art methods.

arxiv情報

著者 Tianshu Yu,Changqun Xia,Jia Li
発行日 2024-05-31 16:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク