要約
効果的な深いポートレートマットモデルを学習するには、高品質と大量の両方のトレーニングデータが必要です。
ただし、ポートレートマットのために品質も量も簡単に満たすことはできません。
最も正確なグラウンドトゥルースポートレートマットは緑の画面の前で取得されるため、現実に大規模なポートレートマットデータセットを収穫することはほとんど不可能です。
この作業は、テキストプロンプトと最近のレイヤー拡散モデルを活用して、高品質のポートレートフォアグラウンドを生成し、潜在的なポートレートマットを抽出できることを示しています。
ただし、ポートレートマットは、重要な世代のアーティファクトのために容易に使用できません。
ポートレートイメージで観察された接続性のプライアー、つまり、ポートレートフォアグラウンドの境界線は常に接続されているように見えます。ポートレートマットを洗練するために接続性が認識するアプローチが導入されています。
これに基づいて、LD-PORTRAIT-20Kと呼ばれる大規模なポートレートマットデータセットが作成され、20,051ドルのポートレートフォアグラウンドと高品質のアルファマットがあります。
広範な実験では、LD-Portrait-20Kデータセットの価値が実証され、モデルが他のデータセットでトレーニングされたものを大幅に上回るモデルがありました。
さらに、Chroma Keyingアルゴリズムとデータセット容量に関するアブレーション研究との比較により、提案されたマット作成アプローチの有効性がさらに確認されました。
さらに、データセットは、シンプルなビデオセグメンテーションとこのデータセットで訓練されたトリマップベースの画像マットモデルによって実装された最先端のビデオポートレートマットにも貢献します。
要約(オリジナル)
Learning effective deep portrait matting models requires training data of both high quality and large quantity. Neither quality nor quantity can be easily met for portrait matting, however. Since the most accurate ground-truth portrait mattes are acquired in front of the green screen, it is almost impossible to harvest a large-scale portrait matting dataset in reality. This work shows that one can leverage text prompts and the recent Layer Diffusion model to generate high-quality portrait foregrounds and extract latent portrait mattes. However, the portrait mattes cannot be readily in use due to significant generation artifacts. Inspired by the connectivity priors observed in portrait images, that is, the border of portrait foregrounds always appears connected, a connectivity-aware approach is introduced to refine portrait mattes. Building on this, a large-scale portrait matting dataset is created, termed LD-Portrait-20K, with $20,051$ portrait foregrounds and high-quality alpha mattes. Extensive experiments demonstrated the value of the LD-Portrait-20K dataset, with models trained on it significantly outperforming those trained on other datasets. In addition, comparisons with the chroma keying algorithm and an ablation study on dataset capacity further confirmed the effectiveness of the proposed matte creation approach. Further, the dataset also contributes to state-of-the-art video portrait matting, implemented by simple video segmentation and a trimap-based image matting model trained on this dataset.
arxiv情報
著者 | Zhiyuan Lu,Hao Lu,Hua Huang |
発行日 | 2025-01-27 15:41:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google