要約
これまでの研究では、LLM がさまざまなタスクの NLG 評価で良好に機能することが示されています。
しかし、LLM はさまざまな評価基準を混同しており、それが信頼性を低下させているようであることがわかりました。
さらなる検証のために、まず既存の NLG 品質基準自体における一貫性のない概念化と曖昧な表現の問題を回避することを検討します。
そこで、関連する以前の研究からの対応する異なる基準を備えた、11 の共通の側面に対する明確な階層分類システムを要約します。
動作テストからインスピレーションを得て、さまざまな LLM の評価動作をきめ細かく分析できるように、18 種類のアスペクトをターゲットとした摂動攻撃を精巧に設計しました。
また、摂動の影響を検証するために、分類システムの指針を超えて人間によるアノテーションも実施します。
私たちの実験結果は、LLM に固有の混乱の問題やその他の注目すべき現象を明らかにしており、LLM ベースの評価にはさらなる研究と改善が必要です。
要約(オリジナル)
Some prior work has shown that LLMs perform well in NLG evaluation for different tasks. However, we discover that LLMs seem to confuse different evaluation criteria, which reduces their reliability. For further verification, we first consider avoiding issues of inconsistent conceptualization and vague expression in existing NLG quality criteria themselves. So we summarize a clear hierarchical classification system for 11 common aspects with corresponding different criteria from previous studies involved. Inspired by behavioral testing, we elaborately design 18 types of aspect-targeted perturbation attacks for fine-grained analysis of the evaluation behaviors of different LLMs. We also conduct human annotations beyond the guidance of the classification system to validate the impact of the perturbations. Our experimental results reveal confusion issues inherent in LLMs, as well as other noteworthy phenomena, and necessitate further research and improvements for LLM-based evaluation.
arxiv情報
著者 | Xinyu Hu,Mingqi Gao,Sen Hu,Yang Zhang,Yicheng Chen,Teng Xu,Xiaojun Wan |
発行日 | 2024-06-28 14:53:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google