要約
機械学習の研究では、標準ベンチマーク データセットでのパフォーマンスを通じてアルゴリズムを評価するのが一般的です。
機械学習におけるデータとベンチマークの実践に関するガイドラインを確立し、批判を課す研究が増えている一方で、これらのデータセットが保存、文書化、共有されるデータ リポジトリには比較的あまり注目されていません。
このペーパーでは、これらの $\textit{ベンチマーク データ リポジトリ}$ の状況と、ベンチマークの改善においてそれらが果たせる役割を分析します。
この役割には、データセット自体の問題 (例: 表現上の害悪、構成の妥当性) と、そのようなデータセットを使用して評価が実行される方法 (例: 少数のデータセットと指標の過度の強調、再現性の欠如) の両方の問題に対処することが含まれます。
この目的を達成するために、機械学習におけるベンチマーク手法の改善に重点を置き、ベンチマーク データ リポジトリの設計と使用に関する一連の考慮事項を特定し、議論します。
要約(オリジナル)
In machine learning research, it is common to evaluate algorithms via their performance on standard benchmark datasets. While a growing body of work establishes guidelines for — and levies criticisms at — data and benchmarking practices in machine learning, comparatively less attention has been paid to the data repositories where these datasets are stored, documented, and shared. In this paper, we analyze the landscape of these $\textit{benchmark data repositories}$ and the role they can play in improving benchmarking. This role includes addressing issues with both datasets themselves (e.g., representational harms, construct validity) and the manner in which evaluation is carried out using such datasets (e.g., overemphasis on a few datasets and metrics, lack of reproducibility). To this end, we identify and discuss a set of considerations surrounding the design and use of benchmark data repositories, with a focus on improving benchmarking practices in machine learning.
arxiv情報
著者 | Rachel Longjohn,Markelle Kelly,Sameer Singh,Padhraic Smyth |
発行日 | 2024-10-31 16:30:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google