Metric Ensembles For Hallucination Detection

要約

抽象的なテキストの要約は、大規模言語モデル (LLM) の普及により、最近ますます関心を集めています。
抽象的な要約の生成に関連する最も差し迫った問題の 1 つは、要約される文書に含まれておらず、完全に不正確である可能性がある情報である「幻覚」を減らす必要があることです。
この必要性のため、要約されるテキストとの一貫性を評価するさまざまな指標が提案されています。
特に、概要の一貫性について一連の教師なしメトリクスを検査し、それらのメトリクス相互の相関関係や、wiki_bio_gpt3_hallucination データセット内の人間の評価スコアとの相関関係を測定します。
次に、これらの評価を、これらのメトリクスの単純な線形アンサンブルから作成されたモデルと比較します。
LLM ベースの手法は、幻覚検出に関して他の教師なし指標よりも優れていることがわかりました。
また、アンサンブル内のメトリクスが十分に類似し、相関のないエラー率を持っている場合、アンサンブル手法によりこれらのスコアをさらに改善できることもわかりました。
最後に、LLM ベースの評価のためのアンサンブル手法を紹介します。これは、この以前の SOTA よりも改善されていることがわかります。

要約(オリジナル)

Abstractive text summarization has garnered increased interest as of late, in part due to the proliferation of large language models (LLMs). One of the most pressing problems related to generation of abstractive summaries is the need to reduce ‘hallucinations,’ information that was not included in the document being summarized, and which may be wholly incorrect. Due to this need, a wide array of metrics estimating consistency with the text being summarized have been proposed. We examine in particular a suite of unsupervised metrics for summary consistency, and measure their correlations with each other and with human evaluation scores in the wiki_bio_gpt3_hallucination dataset. We then compare these evaluations to models made from a simple linear ensemble of these metrics. We find that LLM-based methods outperform other unsupervised metrics for hallucination detection. We also find that ensemble methods can improve these scores even further, provided that the metrics in the ensemble have sufficiently similar and uncorrelated error rates. Finally, we present an ensemble method for LLM-based evaluations that we show improves over this previous SOTA.

arxiv情報

著者 Grant C. Forbes,Parth Katlana,Zeydy Ortiz
発行日 2023-10-16 15:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク