要約
自然言語生成 (NLG) システムによって生成される会議概要の品質を自動的に測定するのは困難です。
ROUGE や BERTScore などの確立された指標は人間の判断との相関が比較的低く、微妙なエラーを捉えることができません。
最近の研究では、大規模言語モデル (LLM) を使用することが提案されています。これには、多数の人間の好みの判断をトレーニングすることなく、コンテキストの理解とエラー定義の適応が向上するという利点があります。
しかし、現在の LLM ベースの評価者はエラーをマスキングするリスクがあり、弱い代理としてしか機能しないため、コストがかかり、研究間で比較するのが難しいにもかかわらず、人間による評価がゴールドスタンダードのままになっています。
この研究では、個々のエラー タイプの 3 段階の評価、意思決定を改善するためのマルチエージェントのディスカッション、およびエラー定義の理解と人間の判断との調整を改善するためのフィードバック ベースの自己トレーニングを採用する LLM ベースのフレームワークである MESA を紹介します。
MESA のコンポーネントにより、徹底したエラー検出、一貫した評価、カスタム エラー ガイドラインへの適応性が可能になることを示します。
GPT-4o をバックボーンとして使用する MESA は、エラー検出における人間の判断による中から高のポイント-ビシリアル相関と、概要品質へのエラーの影響を反映する中程度のスピアマンおよびケンドール相関を達成し、以前の方法より平均で 0.25 高い値を実現します。
このフレームワークはカスタム エラー ガイドラインに柔軟に適応できるため、人間がラベル付けしたデータが限られているさまざまなタスクに適しています。
要約(オリジナル)
The quality of meeting summaries generated by natural language generation (NLG) systems is hard to measure automatically. Established metrics such as ROUGE and BERTScore have a relatively low correlation with human judgments and fail to capture nuanced errors. Recent studies suggest using large language models (LLMs), which have the benefit of better context understanding and adaption of error definitions without training on a large number of human preference judgments. However, current LLM-based evaluators risk masking errors and can only serve as a weak proxy, leaving human evaluation the gold standard despite being costly and hard to compare across studies. In this work, we present MESA, an LLM-based framework employing a three-step assessment of individual error types, multi-agent discussion for decision refinement, and feedback-based self-training to refine error definition understanding and alignment with human judgment. We show that MESA’s components enable thorough error detection, consistent rating, and adaptability to custom error guidelines. Using GPT-4o as its backbone, MESA achieves mid to high Point-Biserial correlation with human judgment in error detection and mid Spearman and Kendall correlation in reflecting error impact on summary quality, on average 0.25 higher than previous methods. The framework’s flexibility in adapting to custom error guidelines makes it suitable for various tasks with limited human-labeled data.
arxiv情報
著者 | Frederic Kirstein,Terry Ruas,Bela Gipp |
発行日 | 2024-11-27 15:35:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google