A Taxonomy of Challenges to Curating Fair Datasets

要約

より公平な機械学習 (ML) データセットを作成するための広範な努力にもかかわらず、データセットのキュレーションの実際的な側面についての理解は依然として限られています。
30 人の ML データセット キュレーターへのインタビューに基づいて、データセット キュレーションのライフサイクル全体で遭遇する課題とトレードオフの包括的な分類を示します。
私たちの調査結果は、データキュレーションに影響を与える、より広範な公平性の展望における重要な問題を浮き彫りにしています。
最後に、公正なデータセットのキュレーション慣行をより促進するための体系的な変更を促進することを目的とした推奨事項を述べます。

要約(オリジナル)

Despite extensive efforts to create fairer machine learning (ML) datasets, there remains a limited understanding of the practical aspects of dataset curation. Drawing from interviews with 30 ML dataset curators, we present a comprehensive taxonomy of the challenges and trade-offs encountered throughout the dataset curation lifecycle. Our findings underscore overarching issues within the broader fairness landscape that impact data curation. We conclude with recommendations aimed at fostering systemic changes to better facilitate fair dataset curation practices.

arxiv情報

著者 Dora Zhao,Morgan Klaus Scheuerman,Pooja Chitre,Jerone T. A. Andrews,Georgia Panagiotidou,Shawn Walker,Kathleen H. Pine,Alice Xiang
発行日 2024-06-10 15:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク