Evaluating Generative Language Models in Information Extraction as Subjective Question Correction

要約

最新の大規模言語モデル(LLM)は、洗練された認知動作を必要とする様々なタスクにおいて目覚ましい能力を発揮している。それにもかかわらず、これらのモデルが関係抽出や事象抽出のような一見初歩的なタスクで劣るという逆説的な性能の不一致が観察されるのは、従来の評価における2つの問題が原因である。(1)モデル出力とグランドトゥルース間の意味的整合性を効果的に測定するのに苦労する、既存の評価メトリクスの不正確さ、(2)主に制限的な人間のアノテーションスキーマに起因する、評価ベンチマーク固有の不完全さ。主観的質問補正の原則に触発され、我々は新しい評価手法SQC-Scoreを提案する。この方法は、主観的質問補正データによって微調整されたLLMを革新的に利用し、モデル出力とゴールデンラベルのマッチングを改善する。さらに、自然言語推論(NLI)モデルを組み込むことで、SQC-Scoreはゴールデンラベルを充実させ、正しいが以前は省略されていた答えを認めることでベンチマークの不完全性に対処する。3つの情報抽出タスクの結果から、SQC-Scoreはベースラインメトリクスよりも人間のアノテーターに好まれることが示された。SQC-Scoreを利用することで、最先端のLLMの包括的な評価を行い、情報抽出のための将来の研究のための洞察を提供する。データセットと関連コードはhttps://github.com/THU-KEG/SQC-Score。

要約(オリジナル)

Modern Large Language Models (LLMs) have showcased remarkable prowess in various tasks necessitating sophisticated cognitive behaviors. Nevertheless, a paradoxical performance discrepancy is observed, where these models underperform in seemingly elementary tasks like relation extraction and event extraction due to two issues in conventional evaluation. (1) The imprecision of existing evaluation metrics that struggle to effectively gauge semantic consistency between model outputs and ground truth, and (2) The inherent incompleteness of evaluation benchmarks, primarily due to restrictive human annotation schemas, resulting in underestimated LLM performances. Inspired by the principles in subjective question correction, we propose a new evaluation method, SQC-Score. This method innovatively utilizes LLMs, fine-tuned through subjective question correction data, to refine matching between model outputs and golden labels. Additionally, by incorporating a Natural Language Inference (NLI) model, SQC-Score enriches golden labels, addressing benchmark incompleteness by acknowledging correct yet previously omitted answers. Results on three information extraction tasks show that SQC-Score is more preferred by human annotators than the baseline metrics. Utilizing SQC-Score, we conduct a comprehensive evaluation of the state-of-the-art LLMs and provide insights for future research for information extraction. Dataset and associated codes can be accessed at https://github.com/THU-KEG/SQC-Score.

arxiv情報

著者 Yuchen Fan,Yantao Liu,Zijun Yao,Jifan Yu,Lei Hou,Juanzi Li
発行日 2024-04-04 15:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク