要約
汎用人工知能 (AI) システムは、C4、RefinedWeb、Dolma などのコーパスにまとめられた大量の公開 Web データに基づいて構築されています。
私たちの知る限りでは、AI トレーニング コーパスの基礎となる Web ドメインの同意プロトコルについて、初めての大規模かつ長期的な監査を実施しました。
14,000 の Web ドメインを対象とした当社の監査により、クロール可能な Web データと、成文化されたデータの使用設定が時間の経過とともにどのように変化しているかについての広範なビューが提供されます。
使用を制限する AI 固有の条項の急増、AI 開発者に対する制限の明確な違い、および Web サイトの利用規約と robots.txt での表明意図との間の一般的な不一致が観察されています。
私たちはこれらを、AI のためのインターネットの広範な再利用に対処するように設計されていない、非効率的な Web プロトコルの症状であると診断します。
当社の長期的な分析によると、1 年 (2023 年から 2024 年) で Web ソースからのデータ制限が急速に高まり、C4 内の全トークンの最大 5% 以上、または最もアクティブに維持されている重要なソースの 28% 以上がレンダリングされたことが示されています。
C4では使用が完全に制限されています。
利用規約のクロール制限により、C4 の 45% が完全に制限されるようになりました。
これらの制限が尊重されたり強制されたりすると、汎用 AI システムの多様性、新鮮さ、スケーリングの法則に急速に偏りが生じます。
私たちは、開発者とクリエイターの両方にとって、データ同意における新たな危機を説明したいと考えています。
オープンウェブの大部分の差し押さえは、商用AIだけでなく、非商用AIや学術研究にも影響を与えるだろう。
要約(オリジナル)
General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how codified data use preferences are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites’ expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crises in data consent, for both developers and creators. The foreclosure of much of the open web will impact not only commercial AI, but also non-commercial AI and academic research.
arxiv情報
著者 | Shayne Longpre,Robert Mahari,Ariel Lee,Campbell Lund,Hamidah Oderinwale,William Brannon,Nayan Saxena,Naana Obeng-Marnu,Tobin South,Cole Hunter,Kevin Klyman,Christopher Klamm,Hailey Schoelkopf,Nikhil Singh,Manuel Cherep,Ahmad Anis,An Dinh,Caroline Chitongo,Da Yin,Damien Sileo,Deividas Mataciunas,Diganta Misra,Emad Alghamdi,Enrico Shippole,Jianguo Zhang,Joanna Materzynska,Kun Qian,Kush Tiwary,Lester Miranda,Manan Dey,Minnie Liang,Mohammed Hamdy,Niklas Muennighoff,Seonghyeon Ye,Seungone Kim,Shrestha Mohanty,Vipul Gupta,Vivek Sharma,Vu Minh Chien,Xuhui Zhou,Yizhi Li,Caiming Xiong,Luis Villa,Stella Biderman,Hanlin Li,Daphne Ippolito,Sara Hooker,Jad Kabbara,Sandy Pentland |
発行日 | 2024-07-24 16:52:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google