要約
自動的に生成された概要内のソース文書との事実の不一致は、誤った情報につながったり、リスクをもたらしたりする可能性があります。
既存の事実整合性 (FC) 指標は、パフォーマンス、効率、説明可能性によって制約されます。
大規模言語モデル (LLM) の最近の進歩により、テキスト評価における顕著な可能性が実証されましたが、要約における FC の評価における LLM の有効性はまだ解明されていません。
これまでの研究は主に独自の LLM に焦点を当てており、評価機能に影響を与える重要な要素は未調査のままでした。
さらに、現在の FC 評価ベンチマークはニュース記事に限定されており、ニュース記事でテストされた FC 手法の一般性に疑問が生じています。
この論文では、まず、領域専門家によって FC 用に注釈が付けられた、LLM によって生成された臨床テキストの要約のデータセットである TreatFact を導入することで、このギャップに対処します。
さらに、ニュースおよび臨床ドメインにわたる FC 評価用の 11 個の LLM のベンチマークを実施し、モデルのサイズ、プロンプト、事前トレーニングおよび微調整データの影響を分析します。
私たちの調査結果では、この課題では独自のモデルが普及しているにもかかわらず、オープンソースの LLM が遅れをとっていることが明らかになりました。
それにもかかわらず、モデルのサイズを増やし、事前トレーニング データを拡張し、よく厳選された微調整データを開発することによって、オープンソース LLM のパフォーマンスを強化できる可能性があります。
TreatFact の実験は、以前の方法と LLM ベースの評価者の両方が臨床概要の事実の矛盾を捉えることができず、FC 評価に新たな課題をもたらしていることを示唆しています。
要約(オリジナル)
Factual inconsistency with source documents in automatically generated summaries can lead to misinformation or pose risks. Existing factual consistency(FC) metrics are constrained by their performance, efficiency, and explainability. Recent advances in Large language models (LLMs) have demonstrated remarkable potential in text evaluation but their effectiveness in assessing FC in summarisation remains underexplored. Prior research has mostly focused on proprietary LLMs, leaving essential factors that affect their assessment capabilities unexplored. Additionally, current FC evaluation benchmarks are restricted to news articles, casting doubt on the generality of the FC methods tested on them. In this paper, we first address the gap by introducing TreatFact a dataset of LLM-generated summaries of clinical texts, annotated for FC by domain experts. Moreover, we benchmark 11 LLMs for FC evaluation across news and clinical domains and analyse the impact of model size, prompts, pre-training and fine-tuning data. Our findings reveal that despite proprietary models prevailing on the task, open-source LLMs lag behind. Nevertheless, there is potential for enhancing the performance of open-source LLMs through increasing model size, expanding pre-training data, and developing well-curated fine-tuning data. Experiments on TreatFact suggest that both previous methods and LLM-based evaluators are unable to capture factual inconsistencies in clinical summaries, posing a new challenge for FC evaluation.
arxiv情報
著者 | Zheheng Luo,Qianqian Xie,Sophia Ananiadou |
発行日 | 2024-02-21 12:35:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google