SIFiD: Reassess Summary Factual Inconsistency Detection with LLM

要約

要約作業では、要約と元の文書の間の事実の一貫性を確保することが最も重要です。
したがって、不一致の検出には多大な労力が費やされてきました。
大規模言語モデル (LLM) の出現により、最近の研究では、その高度な言語理解機能を矛盾検出に活用し始めています。
しかし、初期の試みでは、LLM は指示に従う能力が限られており、効果的な検出方法がないため、従来のモデルよりもパフォーマンスが劣ることが示されています。
この研究では、LLM による概要不一致検出を再評価し、GPT-3.5 と GPT-4 のパフォーマンスを比較します。
LLM ベースの不一致検出の研究を進めるために、自然言語推論を採用するか、要約と文書の間の意味的類似性を測定することによって、文書内の重要な文を識別する SIFiD (フィルターされた文書による要約不一致検出) を提案します。

要約(オリジナル)

Ensuring factual consistency between the summary and the original document is paramount in summarization tasks. Consequently, considerable effort has been dedicated to detecting inconsistencies. With the advent of Large Language Models (LLMs), recent studies have begun to leverage their advanced language understanding capabilities for inconsistency detection. However, early attempts have shown that LLMs underperform traditional models due to their limited ability to follow instructions and the absence of an effective detection methodology. In this study, we reassess summary inconsistency detection with LLMs, comparing the performances of GPT-3.5 and GPT-4. To advance research in LLM-based inconsistency detection, we propose SIFiD (Summary Inconsistency Detection with Filtered Document) that identify key sentences within documents by either employing natural language inference or measuring semantic similarity between summaries and documents.

arxiv情報

著者 Jiuding Yang,Hui Liu,Weidong Guo,Zhuwei Rao,Yu Xu,Di Niu
発行日 2024-03-12 11:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク