要約
大規模言語モデル (LLM) の導入後、テキスト要約や機械翻訳などの自然言語生成 (NLG) タスクのパフォーマンスが大幅に向上しました。
ただし、LLM は依然として幻覚を含む出力、つまり事実情報に基づいていないコンテンツを生成します。
したがって、LLM の事実性を評価する方法の開発が急務となっています。
実際、事実性を評価するためのリソースが最近登場しました。
これらのリソースは、困難ではありますが、次の 1 つ以上の制限に直面しています。(i) 特定のタスクまたはドメインに合わせて調整されています。
(ii) 規模が制限されているため、新しい事実評価者の訓練が妨げられている。
(iii) 請求の検証など、より単純な検証タスク向けに設計されています。
これらの問題に対処するために、私たちの知る限り、エンドツーエンドの事実評価者をトレーニングするための最大のリソースである LLM-Oasis を紹介します。
LLM-Oasis は、Wikipedia から主張を抽出し、これらの主張のサブセットを改ざんし、事実と非事実のテキストのペアを生成することによって構築されます。
次に、データセットの品質を検証し、事実性評価システムのベンチマーク用のゴールドスタンダード テスト セットを作成するために、人間のアノテーターに依存します。
私たちの実験は、LLM-Oasis が最先端の LLM にとって重大な課題であることを示しており、GPT-4o は私たちが提案するエンドツーエンドの事実評価タスクで最大 60% の精度を達成し、将来の研究を推進する可能性を強調しています。
フィールドで。
要約(オリジナル)
After the introduction of Large Language Models (LLMs), there have been substantial improvements in the performance of Natural Language Generation (NLG) tasks, including Text Summarization and Machine Translation. However, LLMs still produce outputs containing hallucinations, that is, content not grounded in factual information. Therefore, developing methods to assess the factuality of LLMs has become urgent. Indeed, resources for factuality evaluation have recently emerged. Although challenging, these resources face one or more of the following limitations: (i) they are tailored to a specific task or domain; (ii) they are limited in size, thereby preventing the training of new factuality evaluators; (iii) they are designed for simpler verification tasks, such as claim verification. To address these issues, we introduce LLM-Oasis, to the best of our knowledge the largest resource for training end-to-end factuality evaluators. LLM-Oasis is constructed by extracting claims from Wikipedia, falsifying a subset of these claims, and generating pairs of factual and unfactual texts. We then rely on human annotators to both validate the quality of our dataset and to create a gold standard test set for benchmarking factuality evaluation systems. Our experiments demonstrate that LLM-Oasis presents a significant challenge for state-of-the-art LLMs, with GPT-4o achieving up to 60% accuracy in our proposed end-to-end factuality evaluation task, highlighting its potential to drive future research in the field.
arxiv情報
著者 | Alessandro Scirè,Andrei Stefan Bejgu,Simone Tedeschi,Karim Ghonim,Federico Martelli,Roberto Navigli |
発行日 | 2024-11-29 12:21:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google