Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning

要約

欧州 AI 法のような最近の規制イニシアチブや機械学習 (ML) コミュニティの関連する声は、出所プロセスや社会的懸念など、信頼できる AI のいくつかの重要な側面に沿ってデータセットを記述する必要性を強調しています。
ただし、この情報は通常、付属のドキュメントでは非構造化テキストとして表示されるため、自動分析と処理が妨げられます。
この研究では、大規模言語モデル (LLM) と一連のプロンプト戦略を使用して、ドキュメントからこれらのディメンションを自動的に抽出し、データセットの説明を充実させる方法を検討します。
私たちのアプローチは、データ発行者や実務者が機械可読ドキュメントを作成して、データセットの発見可能性を向上させ、現在の AI 規制への準拠を評価し、それらに基づいてトレーニングされた ML モデルの全体的な品質を向上させるのに役立ちます。
この論文では、2 つの異なる LLM (GPT3.5 および Flan-UL2) を使用して、2 つの科学雑誌 (Nature’s Scientific Data および Elsevier’s Data in Brief) に掲載された 12 の科学データセット論文に対するアプローチを評価します。
迅速な抽出戦略により、結果は良好な精度を示しました。
具体的な結果は寸法によって異なりますが、全体として、GPT3.5 は FLAN-UL2 (69,13%) よりわずかに優れた精度 (81,21%) を示しますが、幻覚が起こりやすい傾向があります。
私たちは、私たちのアプローチを実装したオープンソース ツールと、実験のコードと結果を含むレプリケーション パッケージをオープンソース リポジトリでリリースしました。

要約(オリジナル)

Recent regulatory initiatives like the European AI Act and relevant voices in the Machine Learning (ML) community stress the need to describe datasets along several key dimensions for trustworthy AI, such as the provenance processes and social concerns. However, this information is typically presented as unstructured text in accompanying documentation, hampering their automated analysis and processing. In this work, we explore using large language models (LLM) and a set of prompting strategies to automatically extract these dimensions from documents and enrich the dataset description with them. Our approach could aid data publishers and practitioners in creating machine-readable documentation to improve the discoverability of their datasets, assess their compliance with current AI regulations, and improve the overall quality of ML models trained on them. In this paper, we evaluate the approach on 12 scientific dataset papers published in two scientific journals (Nature’s Scientific Data and Elsevier’s Data in Brief) using two different LLMs (GPT3.5 and Flan-UL2). Results show good accuracy with our prompt extraction strategies. Concrete results vary depending on the dimensions, but overall, GPT3.5 shows slightly better accuracy (81,21%) than FLAN-UL2 (69,13%) although it is more prone to hallucinations. We have released an open-source tool implementing our approach and a replication package, including the experiments’ code and results, in an open-source repository.

arxiv情報

著者 Joan Giner-Miguelez,Abel Gómez,Jordi Cabot
発行日 2024-05-24 11:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, H.4.4 パーマリンク