要約
機械学習モデルが特定の問題領域内の目に見えないデータを効果的に一般化するには、データが十分なサイズであり、現実世界のシナリオを表す必要があることはよく理解されています。
それにもかかわらず、現実世界のデータセットでは、過剰に代表されるグループと過小に代表されるグループが頻繁に存在します。
機械学習におけるバイアスを軽減する 1 つの解決策は、多様で代表的なデータセットを活用することです。
すべての人口統計をカバーするデータセットでモデルをトレーニングすることは、機械学習のバイアスを軽減するために重要です。
ただし、大規模なデータセットの収集とラベル付けは困難であり、手動ラベル付けのコストを削減するために合成データ生成とアクティブなラベル付けの使用が求められています。
この研究の焦点は、StyleGAN モデルを使用して堅牢な顔画像データセットを生成することでした。
異なる人口統計グループ間でデータセットのバランスのとれた分散を達成するために、StyleGaN の生成プロセスを制御することによって合成データセットが作成され、さまざまな下流タスク用にアノテーションが付けられました。
要約(オリジナル)
For a machine learning model to generalize effectively to unseen data within a particular problem domain, it is well-understood that the data needs to be of sufficient size and representative of real-world scenarios. Nonetheless, real-world datasets frequently have overrepresented and underrepresented groups. One solution to mitigate bias in machine learning is to leverage a diverse and representative dataset. Training a model on a dataset that covers all demographics is crucial to reducing bias in machine learning. However, collecting and labeling large-scale datasets has been challenging, prompting the use of synthetic data generation and active labeling to decrease the costs of manual labeling. The focus of this study was to generate a robust face image dataset using the StyleGAN model. In order to achieve a balanced distribution of the dataset among different demographic groups, a synthetic dataset was created by controlling the generation process of StyleGaN and annotated for different downstream tasks.
arxiv情報
著者 | Kidist Amde Mekonnen |
発行日 | 2023-08-07 11:42:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google