要約
通常、政府は国民や機関に関する膨大な量の質の高いデータを収集して管理しており、英国政府は、AI 環境の利益のためにこのデータをより適切に公開および提供する方法を模索しています。
ただし、生成 AI トレーニング コーパスの構成は厳重に守られた秘密のままであり、データ共有の取り組みの計画を困難にしています。
これに対処するために、大規模言語モデル (LLM) のトレーニングのための英国政府のデータ使用を評価する 2 つの方法を考案し、AI のデータ プロバイダーとしての英国政府の現在の貢献を観察するために「カーテンの後ろを覗く」方法を考案しました。
最初の方法は、LLM の「アンラーニング」を利用したアブレーション研究で、LLM にとって英国政府の Web サイトに保持されている情報の重要性と、市民のクエリタスクにおける LLM のパフォーマンスを調査することを目的としています。
2 番目の方法である情報漏洩調査は、英国政府のオープン データ イニシアチブ data.gov.uk で公開されているデータセットに保持されている情報を LLM が認識しているかどうかを確認することを目的としています。
私たちの調査結果は、英国政府の Web サイトが AI にとって重要なデータ ソース (主題間で異種混合) であるのに対し、data.gov.uk はそうではないことを示しています。
このペーパーは技術レポートとして機能し、上記の実験の設計、仕組み、制限を詳しく説明します。
これには、ODI Web サイト上で補完的な非技術レポートが添付されています。このレポートでは、実験と主要な結果を要約し、解釈し、英国政府が AI 政策を策定する際に前進させるための一連の実用的な推奨事項を構築しています。
私たちは英国のオープンガバメントデータに焦点を当てていますが、このホワイトペーパーで紹介した手法は、AI トレーニングコーパスの不透明さに対処するための再現可能なアプローチを提示し、組織が AI 開発への貢献を評価して最大化するためのフレームワークを提供すると信じています。
要約(オリジナル)
Governments typically collect and steward a vast amount of high-quality data on their citizens and institutions, and the UK government is exploring how it can better publish and provision this data to the benefit of the AI landscape. However, the compositions of generative AI training corpora remain closely guarded secrets, making the planning of data sharing initiatives difficult. To address this, we devise two methods to assess UK government data usage for the training of Large Language Models (LLMs) and ‘peek behind the curtain’ in order to observe the UK government’s current contributions as a data provider for AI. The first method, an ablation study that utilises LLM ‘unlearning’, seeks to examine the importance of the information held on UK government websites for LLMs and their performance in citizen query tasks. The second method, an information leakage study, seeks to ascertain whether LLMs are aware of the information held in the datasets published on the UK government’s open data initiative data.gov.uk. Our findings indicate that UK government websites are important data sources for AI (heterogenously across subject matters) while data.gov.uk is not. This paper serves as a technical report, explaining in-depth the designs, mechanics, and limitations of the above experiments. It is accompanied by a complementary non-technical report on the ODI website in which we summarise the experiments and key findings, interpret them, and build a set of actionable recommendations for the UK government to take forward as it seeks to design AI policy. While we focus on UK open government data, we believe that the methods introduced in this paper present a reproducible approach to tackle the opaqueness of AI training corpora and provide organisations a framework to evaluate and maximize their contributions to AI development.
arxiv情報
著者 | Neil Majithia,Elena Simperl |
発行日 | 2024-12-18 15:55:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google