The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI


データの透明性と理解を脅かすこれらの慣行を是正するために、私たちは法務専門家と機械学習専門家の間で学際的な取り組みを招集し、1,800 を超えるテキスト データセットを体系的に監査および追跡します。
また、広く使用されているデータセット ホスティング サイトでは、ライセンスの誤った分類が頻繁に発生しており、ライセンスの欠落が 72% 以上、エラー率が 50% 以上であることも観察されています。
データセットの透明性と責任ある使用の継続的な改善への貢献として、私たちは対話型 UI であるデータ来歴エクスプローラーを備えた監査全体をリリースします。これにより、実務者は、最も一般的なオープンソースの微調整データ コレクションのデータ来歴を追跡およびフィルターできるようになります。 www。


The race to train language models on vast, diverse, and inconsistently documented datasets has raised pressing concerns about the legal and ethical risks for practitioners. To remedy these practices threatening data transparency and understanding, we convene a multi-disciplinary effort between legal and machine learning experts to systematically audit and trace 1800+ text datasets. We develop tools and standards to trace the lineage of these datasets, from their source, creators, series of license conditions, properties, and subsequent use. Our landscape analysis highlights the sharp divides in composition and focus of commercially open vs closed datasets, with closed datasets monopolizing important categories: lower resource languages, more creative tasks, richer topic variety, newer and more synthetic training data. This points to a deepening divide in the types of data that are made available under different license conditions, and heightened implications for jurisdictional legal interpretations of copyright and fair use. We also observe frequent miscategorization of licenses on widely used dataset hosting sites, with license omission of 72%+ and error rates of 50%+. This points to a crisis in misattribution and informed use of the most popular datasets driving many recent breakthroughs. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire audit, with an interactive UI, the Data Provenance Explorer, which allows practitioners to trace and filter on data provenance for the most popular open source finetuning data collections:


著者 Shayne Longpre,Robert Mahari,Anthony Chen,Naana Obeng-Marnu,Damien Sileo,William Brannon,Niklas Muennighoff,Nathan Khazam,Jad Kabbara,Kartik Perisetla,Xinyi,Wu,Enrico Shippole,Kurt Bollacker,Tongshuang Wu,Luis Villa,Sandy Pentland,Deb Roy,Sara Hooker
発行日 2023-10-25 17:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク