要約
大規模な言語モデル(LLMS)の導入後、テキストの要約や機械翻訳など、自然言語生成(NLG)タスクのパフォーマンスが大幅に改善されました。
ただし、LLMは依然として幻覚、つまり、実際には根拠のないコンテンツを含む出力を生成します。
したがって、LLMSの事実を評価するための方法の開発は緊急になりました。
実際、事実評価のためのリソースが最近浮上しています。
挑戦的ですが、これらのリソースは次の制限の1つ以上に直面しています。(i)特定のタスクまたはドメインに合わせて調整されています。
(ii)サイズが限られているため、新しい事実評価者の訓練を妨げます。
(iii)クレーム検証など、より単純な検証タスク用に設計されています。
これらの問題に対処するために、LLM-Oasisを紹介し、私たちの知る限り、エンドツーエンドの事実評価者をトレーニングするための最大のリソースです。
LLM-Oasisは、ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と不正なテキストのペアを生成することによって構築されます。
次に、データセットの品質を検証し、ベンチマークの事実評価システムのためのゴールドスタンダードテストセットを作成するために、人間のアノテーターに頼っています。
私たちの実験は、LLM-Oasisが最先端のLLMに大きな課題をもたらし、GPT-4oが提案されたエンドツーエンドの事実評価タスクで最大60%の精度を達成し、現場での将来の研究を推進する可能性を強調していることを示しています。
要約(オリジナル)
After the introduction of Large Language Models (LLMs), there have been substantial improvements in the performance of Natural Language Generation (NLG) tasks, including Text Summarization and Machine Translation. However, LLMs still produce outputs containing hallucinations, that is, content not grounded in factual information. Therefore, developing methods to assess the factuality of LLMs has become urgent. Indeed, resources for factuality evaluation have recently emerged. Although challenging, these resources face one or more of the following limitations: (i) they are tailored to a specific task or domain; (ii) they are limited in size, thereby preventing the training of new factuality evaluators; (iii) they are designed for simpler verification tasks, such as claim verification. To address these issues, we introduce LLM-Oasis, to the best of our knowledge the largest resource for training end-to-end factuality evaluators. LLM-Oasis is constructed by extracting claims from Wikipedia, falsifying a subset of these claims, and generating pairs of factual and unfactual texts. We then rely on human annotators to both validate the quality of our dataset and to create a gold standard test set for benchmarking factuality evaluation systems. Our experiments demonstrate that LLM-Oasis presents a significant challenge for state-of-the-art LLMs, with GPT-4o achieving up to 60% accuracy in our proposed end-to-end factuality evaluation task, highlighting its potential to drive future research in the field.
arxiv情報
著者 | Alessandro Scirè,Andrei Stefan Bejgu,Simone Tedeschi,Karim Ghonim,Federico Martelli,Roberto Navigli |
発行日 | 2025-03-31 13:55:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google