要約
機械学習 (ML) システムの公平性と信頼性を確保するために、最近の立法化や ML コミュニティの関連研究では、ML モデルのトレーニングに使用されるデータを文書化する必要性が指摘されています。
さらに、再現性を目的として、多くの科学分野でのデータ共有慣行が近年進化しています。
この意味で、学術機関がこれらの慣行を採用することにより、研究者はデータや技術文書をデータペーパーなどの査読付き出版物で公開することが奨励されています。
この研究では、この広範な科学データ文書が ML テクノロジーでの使用に対する ML コミュニティと規制機関のニーズをどのように満たしているかを分析します。
私たちはさまざまな分野の 4,041 件のデータペーパーのサンプルを調査し、その完全性、要求された次元の範囲、および近年の傾向を評価します。
私たちは最も文書化された次元と最も文書化されていない次元に焦点を当て、その結果を、データセットを説明する論文を発行している ML に重点を置いた会場 (NeurIPS D&B トラック) の結果と比較します。
その結果、私たちは、データ作成者と科学データ発行者が ML テクノロジーでのデータの透明性と公正な使用に対する準備を強化するための一連の推奨ガイドラインを提案します。
要約(オリジナル)
To ensure the fairness and trustworthiness of machine learning (ML) systems, recent legislative initiatives and relevant research in the ML community have pointed out the need to document the data used to train ML models. Besides, data-sharing practices in many scientific domains have evolved in recent years for reproducibility purposes. In this sense, academic institutions’ adoption of these practices has encouraged researchers to publish their data and technical documentation in peer-reviewed publications such as data papers. In this study, we analyze how this broader scientific data documentation meets the needs of the ML community and regulatory bodies for its use in ML technologies. We examine a sample of 4041 data papers of different domains, assessing their completeness, coverage of the requested dimensions, and trends in recent years. We focus on the most and least documented dimensions and compare the results with those of an ML-focused venue (NeurIPS D&B track) publishing papers describing datasets. As a result, we propose a set of recommendation guidelines for data creators and scientific data publishers to increase their data’s preparedness for its transparent and fairer use in ML technologies.
arxiv情報
著者 | Joan Giner-Miguelez,Abel Gómez,Jordi Cabot |
発行日 | 2024-12-17 16:34:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google