On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms

要約

人工知能 (AI) はさまざまな科学分野に進出し、さまざまなタスクに対して既存のアルゴリズムに驚くべき改善をもたらしています。
近年、AI テクノロジーの信頼性について深刻な懸念が生じています。
科学界は信頼できる AI アルゴリズムの開発に焦点を当ててきました。
ただし、今日 AI コミュニティで人気のある機械学習アルゴリズムと深層学習アルゴリズムは、開発中に使用されるデータに大きく依存します。
これらの学習アルゴリズムはデータ内のパターンを特定し、行動目標を学習します。
データ内の欠陥は、アルゴリズムに直接反映される可能性があります。
この研究では、責任ある機械学習データセットの重要性について議論し、責任のあるルーブリックを通じてデータセットを評価するフレームワークを提案します。
既存の研究はアルゴリズムの信頼性に関する事後評価に焦点を当てていますが、私たちはアルゴリズムにおけるその役割を理解するためにデータコンポーネントを個別に考慮するフレームワークを提供します。
私たちは公平性、プライバシー、法規制順守という観点から責任あるデータセットについて議論し、将来のデータセットを構築するための推奨事項を提供します。
100 を超えるデータセットを調査した後、分析に 60 のデータセットを使用し、これらのデータセットのどれも公平性、プライバシー保護、規制遵守の問題を免れないことを実証しました。
データセットのドキュメントを改善するために、「データセットのデータシート」に重要な追加を加えた変更を提供します。
世界中の政府がデータ保護法の規則化に伴い、科学界におけるデータセットの作成方法の見直しが必要となっています。
私たちは、この研究が今日の AI 時代にタイムリーで関連性のあるものであると信じています。

要約(オリジナル)

Artificial Intelligence (AI) has made its way into various scientific fields, providing astonishing improvements over existing algorithms for a wide variety of tasks. In recent years, there have been severe concerns over the trustworthiness of AI technologies. The scientific community has focused on the development of trustworthy AI algorithms. However, machine and deep learning algorithms, popular in the AI community today, depend heavily on the data used during their development. These learning algorithms identify patterns in the data, learning the behavioral objective. Any flaws in the data have the potential to translate directly into algorithms. In this study, we discuss the importance of Responsible Machine Learning Datasets and propose a framework to evaluate the datasets through a responsible rubric. While existing work focuses on the post-hoc evaluation of algorithms for their trustworthiness, we provide a framework that considers the data component separately to understand its role in the algorithm. We discuss responsible datasets through the lens of fairness, privacy, and regulatory compliance and provide recommendations for constructing future datasets. After surveying over 100 datasets, we use 60 datasets for analysis and demonstrate that none of these datasets is immune to issues of fairness, privacy preservation, and regulatory compliance. We provide modifications to the “datasheets for datasets’ with important additions for improved dataset documentation. With governments around the world regularizing data protection laws, the method for the creation of datasets in the scientific community requires revision. We believe this study is timely and relevant in today’s era of AI.

arxiv情報

著者 Surbhi Mittal,Kartik Thakral,Richa Singh,Mayank Vatsa,Tamar Glaser,Cristian Canton Ferrer,Tal Hassner
発行日 2023-10-24 14:01:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク