要約
大規模な言語モデル(LLM)に基づいた忠実さの評価者は、テキストの流encyさにだまされ、要約のエラーを特定することに苦労することがよくあります。
複数のLLMベースのエージェントが初期スタンス(彼らの信念が何であるかに関係なく)に割り当てられ、課せられた信念を正当化する理由を思い付くことを余儀なくされ、したがってマルチラウンドの議論に従事するという要約忠実な評価へのアプローチを提案します
合意に達する。
均一に分散された初期割り当てにより、より多くの多様なスタンスが発生します。
さらに、最近の忠実な評価データセットを分析することにより、当然のことながら、要約がソース文書に忠実であるかどうかは必ずしもそうではないことを観察します。
したがって、このような特別なケースを特定するために、新しい次元、曖昧さ、および詳細な分類法を紹介します。
実験は、私たちのアプローチが曖昧さを特定するのに役立つことを実証し、非曖昧な要約でパフォーマンスを強化することさえあります。
要約(オリジナル)
Faithfulness evaluators based on large language models (LLMs) are often fooled by the fluency of the text and struggle with identifying errors in the summaries. We propose an approach to summary faithfulness evaluation in which multiple LLM-based agents are assigned initial stances (regardless of what their belief might be) and forced to come up with a reason to justify the imposed belief, thus engaging in a multi-round debate to reach an agreement. The uniformly distributed initial assignments result in a greater diversity of stances leading to more meaningful debates and ultimately more errors identified. Furthermore, by analyzing the recent faithfulness evaluation datasets, we observe that naturally, it is not always the case for a summary to be either faithful to the source document or not. We therefore introduce a new dimension, ambiguity, and a detailed taxonomy to identify such special cases. Experiments demonstrate our approach can help identify ambiguities, and have even a stronger performance on non-ambiguous summaries.
arxiv情報
著者 | Mahnaz Koupaee,Jake W. Vincent,Saab Mansour,Igor Shalyminov,Han He,Hwanjun Song,Raphael Shu,Jianfeng He,Yi Nian,Amy Wing-mei Wong,Kyu J. Han,Hang Su |
発行日 | 2025-02-12 15:46:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google