要約
どのような分類モデルであっても,学習過程とテスト過程で用いるデータセットがある特定の要件を満たしていれば,その性能は有効であることはよく知られている.つまり、データセットのサイズが大きく、バランスが良く、代表的であればあるほど、提案するモデルの有効性、ひいては得られる結果をより信頼できるものとすることができる。残念ながら、バイオメディカル用途、特に病的な人間の顔画像を扱う用途では、大規模な匿名データセットが一般に公開されていない。この懸念により、ディープラーニングベースのアプローチを使用することは展開が難しく、いくつかの発表された結果を再現または検証することが困難である。本論文では、3段階の重症度(すなわち、軽度、中等度、重度)に対応するニキビ障害の属性を持つ、人間の顔の現実的な匿名合成データセットを生成する効率的な方法を提案する。そこで、異なるレベルで学習された特定の階層StyleGANベースのアルゴリズムが検討される。提案方式の性能を評価するために、生成された合成ニキビ顔画像を用いて訓練し、本物の顔画像を用いてテストしたCNNベースの分類システムを考察する。その結果、InceptionResNetv2を用いて97,6%の精度が達成されることを示す。この結果、科学者コミュニティは、生成された合成データセットを、法的または倫理的な懸念に制限されることなく、あらゆるデータ処理アプリケーションに採用することができる。さらに、このアプローチは、合成医用画像の生成を必要とする他のアプリケーションにも拡張可能である。コードと生成されたデータセットに科学者コミュニティがアクセスできるようにすることができる。
要約(オリジナル)
It is well known that the performance of any classification model is effective if the dataset used for the training process and the test process satisfy some specific requirements. In other words, the more the dataset size is large, balanced, and representative, the more one can trust the proposed model’s effectiveness and, consequently, the obtained results. Unfortunately, large-size anonymous datasets are generally not publicly available in biomedical applications, especially those dealing with pathological human face images. This concern makes using deep-learning-based approaches challenging to deploy and difficult to reproduce or verify some published results. In this paper, we suggest an efficient method to generate a realistic anonymous synthetic dataset of human faces with the attributes of acne disorders corresponding to three levels of severity (i.e. Mild, Moderate and Severe). Therefore, a specific hierarchy StyleGAN-based algorithm trained at distinct levels is considered. To evaluate the performance of the proposed scheme, we consider a CNN-based classification system, trained using the generated synthetic acneic face images and tested using authentic face images. Consequently, we show that an accuracy of 97,6\% is achieved using InceptionResNetv2. As a result, this work allows the scientific community to employ the generated synthetic dataset for any data processing application without restrictions on legal or ethical concerns. Moreover, this approach can also be extended to other applications requiring the generation of synthetic medical images. We can make the code and the generated dataset accessible for the scientific community.
arxiv情報
著者 | Hazem Zein,Samer Chantaf,Régis Fournier,Amine Nait-Ali |
発行日 | 2022-11-08 12:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |