要約
近年、ML研究者は、機械学習(ML)ベンチマークやデータセットの定義や改良に取り組んでいる。それと並行して、データセットの作成とML研究の倫理について批判的なレンズを向ける人も出てきた。このポジションペーパーでは、MLベンチマークの設計に関する一見「技術的」あるいは「科学的」な決定が倫理と絡んでいることを強調します。我々の出発点は、人間の知能ベンチマークとMLベンチマークの間に、見過ごされてきた構造的な類似性が複数存在することである。どちらのタイプのベンチマークも、知能に関連するタスクのパフォーマンスを記述、評価、比較するための基準を設定するものであり、人間の知能に関する多くの研究者が長い間、価値観を伴う基準として認識してきたものである。我々は、IQベンチマークに関するフェミニスト科学哲学の視点と、社会科学における厚みのある概念を用いて、MLベンチマークを作成する際には、価値を考慮し文書化する必要があることを主張する。価値中立的なベンチマークを作成することで、この選択を回避することは不可能であり、望ましいことでもない。最後に、MLベンチマークの研究倫理と倫理審査に関する実践的な推奨事項を概説する。
要約(オリジナル)
In recent years, ML researchers have wrestled with defining and improving machine learning (ML) benchmarks and datasets. In parallel, some have trained a critical lens on the ethics of dataset creation and ML research. In this position paper, we highlight the entanglement of ethics with seemingly “technical” or “scientific” decisions about the design of ML benchmarks. Our starting point is the existence of multiple overlooked structural similarities between human intelligence benchmarks and ML benchmarks. Both types of benchmarks set standards for describing, evaluating, and comparing performance on tasks relevant to intelligence — standards that many scholars of human intelligence have long recognized as value-laden. We use perspectives from feminist philosophy of science on IQ benchmarks and thick concepts in social science to argue that values need to be considered and documented when creating ML benchmarks. It is neither possible nor desirable to avoid this choice by creating value-neutral benchmarks. Finally, we outline practical recommendations for ML benchmark research ethics and ethics review.
arxiv情報
著者 | Borhane Blili-Hamelin,Leif Hancox-Li |
発行日 | 2023-05-11 17:09:56+00:00 |
arxivサイト | arxiv_id(pdf) |