Facial Wrinkle Segmentation for Cosmetic Dermatology: Pretraining with Texture Map-Based Weak Supervision

要約

顔のしわの検出は美容皮膚科において重要な役割を果たします。
顔のしわを手動で正確にセグメンテーションするのは困難で時間がかかり、固有の主観により採点者間で結果が一貫しないことがあります。
この問題に対処するために、2 つの解決策を提案します。
まず、NVIDIA FFHQ データセットの拡張である最初の公開顔のしわデータセット「FFHQ-Wrinkle」を構築してリリースします。
これには、人間のラベルが付いた 1,000 枚の画像と、自動的に生成された弱いラベルが付いた 50,000 枚の画像が含まれています。
このデータセットは、研究コミュニティが高度なしわ検出アルゴリズムを開発するための基盤として機能する可能性があります。
次に、顔全体のしわを検出するために、さまざまなセグメンテーション モデルに適用できるテクスチャ マップを利用した簡単なトレーニング戦略を紹介します。
私たちの 2 段階のトレーニング戦略では、まず人間の介入なしに、弱いラベル (N=50k) またはコンピューター ビジョン技術によって生成されたマスクされたテクスチャ マップを使用して大規模なデータセットでモデルを事前トレーニングします。
次に、手動でラベル付けされたしわマスクで構成される人間がラベル付けしたデータ (N=1k) を使用してモデルを微調整します。
ネットワークは、微調整において、RGB と画像のマスクされたテクスチャ マップ (4 つのチャネルで構成) の組み合わせを入力として受け取ります。
複数のアノテーターのラベルを効果的に組み合わせて、手動ラベル付けにおける主観性を最小限に抑えます。
私たちの戦略は、既存の事前トレーニング方法と比較して、顔のしわのセグメンテーションにおけるセグメンテーションのパフォーマンスが定量的および視覚的に向上していることを示しています。
データセットは https://github.com/labhai/ffhq-wrinkle-dataset で入手できます。

要約(オリジナル)

Facial wrinkle detection plays a crucial role in cosmetic dermatology. Precise manual segmentation of facial wrinkles is challenging and time-consuming, with inherent subjectivity leading to inconsistent results among graders. To address this issue, we propose two solutions. First, we build and release the first public facial wrinkle dataset, ‘FFHQ-Wrinkle’, an extension of the NVIDIA FFHQ dataset. It includes 1,000 images with human labels and 50,000 images with automatically generated weak labels. This dataset could serve as a foundation for the research community to develop advanced wrinkle detection algorithms. Second, we introduce a simple training strategy utilizing texture maps, applicable to various segmentation models, to detect wrinkles across the face. Our two-stage training strategy first pretrain models on a large dataset with weak labels (N=50k), or masked texture maps generated through computer vision techniques, without human intervention. We then finetune the models using human-labeled data (N=1k), which consists of manually labeled wrinkle masks. The network takes as input a combination of RGB and masked texture map of the image, comprising four channels, in finetuning. We effectively combine labels from multiple annotators to minimize subjectivity in manual labeling. Our strategies demonstrate improved segmentation performance in facial wrinkle segmentation both quantitatively and visually compared to existing pretraining methods. The dataset is available at https://github.com/labhai/ffhq-wrinkle-dataset.

arxiv情報

著者 Junho Moon,Haejun Chung,Ikbeom Jang
発行日 2024-09-12 12:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク