要約
この論文では、LLMS、タスクのために微調整された小さな要約モデルを比較し、以前のNER中心のベースラインQACGを比較して、1対多くのテキスト生成方法を使用したクレーム抽出の問題を調査します。
クレーム抽出、事実抽出、クレーム生成、チェックに値するクレーム検出に関する現在の出版物は、その手段と用語に非常に散らばっているため、4Kの原子的事実請求が4Kコンテキスト化されたウィキペディアセンテンスから抽出された17K原子の事実のクレームを導入して、共通の目的を編集します。
、元の発熱から適応します。
既知の目標を、原子性、流ency性、脱表現、生成された各クレームについて個別にチェックされた忠実さ、および単一の入力の予測クレームの完全なセットに対して測定されたフォーカスとカバレッジの評価フレームワークにまとめます。
各メトリックについて、既に実験されたNLPタスクへの削減を使用してスケールを実装します。
一般的なクレームの人間のグレーディングに対するメトリックを検証し、最も難しいメトリックである$ f_ {fact} $にランク付けされているモデルが変更されず、評価フレームワークは$ f_1 $とrmseに関してヒトのグレーディングを非常に密接に近似していることを確認します。
要約(オリジナル)
In this paper, we explore the problem of Claim Extraction using one-to-many text generation methods, comparing LLMs, small summarization models finetuned for the task, and a previous NER-centric baseline QACG. As the current publications on Claim Extraction, Fact Extraction, Claim Generation and Check-worthy Claim Detection are quite scattered in their means and terminology, we compile their common objectives, releasing the FEVERFact dataset, with 17K atomic factual claims extracted from 4K contextualised Wikipedia sentences, adapted from the original FEVER. We compile the known objectives into an Evaluation framework of: Atomicity, Fluency, Decontextualization, Faithfulness checked for each generated claim separately, and Focus and Coverage measured against the full set of predicted claims for a single input. For each metric, we implement a scale using a reduction to an already-explored NLP task. We validate our metrics against human grading of generic claims, to see that the model ranking on $F_{fact}$, our hardest metric, did not change and the evaluation framework approximates human grading very closely in terms of $F_1$ and RMSE.
arxiv情報
著者 | Herbert Ullrich,Tomáš Mlynář,Jan Drchal |
発行日 | 2025-02-07 14:20:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google