The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI

要約

膨大で多様で一貫性のない文書化されたデータセットに基づいて言語モデルをトレーニングする競争により、実務者に対する法的および倫理的リスクについて差し迫った懸念が生じています。
データの透明性と理解を脅かすこれらの慣行を是正するために、私たちは法務専門家と機械学習専門家の間で学際的な取り組みを招集し、1,800 を超えるテキスト データセットを体系的に監査および追跡します。
私たちは、ソース、作成者、一連のライセンス条件、プロパティ、その後の使用に至るまで、これらのデータセットの系統を追跡するためのツールと標準を開発しています。
私たちのランドスケープ分析では、商業的にオープンなデータセットとクローズドなデータセットの構成と焦点が明確に分かれており、リソースの少ない言語、より創造的なタスク、より豊富なトピックの多様性、より新しく合成されたトレーニングデータなど、重要なカテゴリーをクローズドなデータセットが独占していることが浮き彫りになっています。
これは、異なるライセンス条件の下で利用可能になるデータの種類の溝が深まり、著作権とフェアユースの管轄区域の法的解釈への影響が高まっていることを示しています。
また、広く使用されているデータセット ホスティング サイトでは、ライセンスの誤った分類が頻繁に発生しており、ライセンスの欠落が 72% 以上、エラー率が 50% 以上であることも観察されています。
これは、最近の多くの進歩を促進する最も人気のあるデータセットの誤った帰属と情報に基づいた使用の危機を示しています。
データセットの透明性と責任ある使用の継続的な改善への貢献として、私たちは対話型 UI であるデータ来歴エクスプローラーを備えた監査全体をリリースします。これにより、実務者は、最も一般的なオープンソースの微調整データ コレクションのデータ来歴を追跡およびフィルターできるようになります。 www
.dataprovenance.org。

要約(オリジナル)

The race to train language models on vast, diverse, and inconsistently documented datasets has raised pressing concerns about the legal and ethical risks for practitioners. To remedy these practices threatening data transparency and understanding, we convene a multi-disciplinary effort between legal and machine learning experts to systematically audit and trace 1800+ text datasets. We develop tools and standards to trace the lineage of these datasets, from their source, creators, series of license conditions, properties, and subsequent use. Our landscape analysis highlights the sharp divides in composition and focus of commercially open vs closed datasets, with closed datasets monopolizing important categories: lower resource languages, more creative tasks, richer topic variety, newer and more synthetic training data. This points to a deepening divide in the types of data that are made available under different license conditions, and heightened implications for jurisdictional legal interpretations of copyright and fair use. We also observe frequent miscategorization of licenses on widely used dataset hosting sites, with license omission of 72%+ and error rates of 50%+. This points to a crisis in misattribution and informed use of the most popular datasets driving many recent breakthroughs. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire audit, with an interactive UI, the Data Provenance Explorer, which allows practitioners to trace and filter on data provenance for the most popular open source finetuning data collections: www.dataprovenance.org.

arxiv情報

著者 Shayne Longpre,Robert Mahari,Anthony Chen,Naana Obeng-Marnu,Damien Sileo,William Brannon,Niklas Muennighoff,Nathan Khazam,Jad Kabbara,Kartik Perisetla,Xinyi,Wu,Enrico Shippole,Kurt Bollacker,Tongshuang Wu,Luis Villa,Sandy Pentland,Deb Roy,Sara Hooker
発行日 2023-10-25 17:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク