Facial Wrinkle Segmentation for Cosmetic Dermatology: Pretraining with Texture Map-Based Weak Supervision

要約

顔のしわの検出は美容皮膚科において重要な役割を果たします。
顔のしわを手動で正確にセグメンテーションするのは困難で時間がかかり、固有の主観により採点者間で結果が一貫しないことがあります。
この問題に対処するために、2 つの解決策を提案します。
まず、NVIDIA FFHQ データセットの拡張である、最初の公開顔のしわデータセット「FFHQ-Wrinkle」を構築してリリースします。
このデータセットには、人間のラベルが付いた 1,000 枚の画像と、自動的に生成された弱いラベルが付いた 50,000 枚の画像が含まれています。
このデータセットは、高度なしわ検出アルゴリズムを開発するための研究コミュニティを育成できます。
2 番目に、顔全体のしわを自動的に検出するための U-Net のようなエンコーダー/デコーダー モデルのトレーニング戦略を導入します。
私たちの手法では、テクスチャ マップの事前トレーニングと人間がラベル付けしたデータの微調整という 2 段階のトレーニング戦略を採用しています。
最初に、人間の介入なしに、弱いラベル (N=50k) またはコンピューター ビジョン技術によって生成されたマスクされたテクスチャ マップを使用して、大規模なデータセット上でモデルを事前トレーニングします。
次に、人間がラベル付けしたデータ (N=1k) を使用してモデルを微調整します。このデータは、手動でラベル付けされたしわマスクで構成されます。
微調整中に、ネットワークは 4 つのチャネルで構成される RGB とマスクされたテクスチャ マップの組み合わせを入力します。
複数のアノテーターのラベルを効果的に組み合わせて、手動ラベル付けにおける主観性を最小限に抑えます。
私たちの戦略は、既存の事前トレーニング方法と比較して、顔のしわのセグメンテーションにおけるセグメンテーションのパフォーマンスが定量的および視覚的に向上していることを示しています。

要約(オリジナル)

Facial wrinkle detection plays a crucial role in cosmetic dermatology. Precise manual segmentation of facial wrinkles is challenging and time-consuming, with inherent subjectivity leading to inconsistent results among graders. To address this issue, we propose two solutions. First, we build and release the first public facial wrinkle dataset, `FFHQ-Wrinkle’, an extension of the NVIDIA FFHQ dataset. This dataset includes 1,000 images with human labels and 50,000 images with automatically generated weak labels. This dataset can foster the research community to develop advanced wrinkle detection algorithms. Second, we introduce a training strategy for U-Net-like encoder-decoder models to detect wrinkles across the face automatically. Our method employs a two-stage training strategy: texture map pretraining and finetuning on human-labeled data. Initially, we pretrain models on a large dataset with weak labels (N=50k) or masked texture maps generated through computer vision techniques, without human intervention. Subsequently, we finetune the models using human-labeled data (N=1k), which consists of manually labeled wrinkle masks. During finetuning, the network inputs a combination of RGB and masked texture maps, comprising four channels. We effectively combine labels from multiple annotators to minimize subjectivity in manual labeling. Our strategies demonstrate improved segmentation performance in facial wrinkle segmentation both quantitatively and visually compared to existing pretraining methods.

arxiv情報

著者 Junho Moon,Haejun Chung,Ikbeom Jang
発行日 2024-08-19 14:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク