要約
自動オープンドメインダイアログ評価は注目を集めていますが、応答の適切性を評価する複雑さのために困難なままです。
通常、真の肯定的でランダムに選択された否定的な応答で訓練された従来の評価メトリックは、コンテンツとの類似性をより多く共有する応答に高いスコアを割り当てる傾向があります。
ただし、コンテキストと高い字句のオーバーラップを持っているにもかかわらず、敵対的な負の反応は、意味的に不調和になる可能性があります。
その結果、既存のメトリックはそのような反応を効果的に評価するのに苦労し、人間の判断との相関が低い。
最近の研究では、オープンドメインの対話評価のための大規模な言語モデル(LLM)の有効性が実証されていますが、敵対的な否定的な例を処理する際の課題に直面しています。
抽象的な意味表現(AMR)強化されたドメイン固有の言語モデル(SLM)をLLMSと統合する新しい評価フレームワークを提案します。
当社のSLMは、強化されたセマンティック表現学習のためのゲーティングメカニズムを通じてAMRグラフ情報を明示的に組み込み、SLM予測とAMRの知識の両方がLLMプロンプトに統合され、堅牢な評価のために統合されています。
オープンドメインの対話評価タスクに関する広範な実験は、最先端のベースラインと比較して、方法の優位性を示しています。
私たちの包括的なアブレーション研究は、AMRグラフ情報がパフォーマンスの改善に大きく貢献していることを明らかにしています。
私たちのフレームワークは、複数のデータセットにわたる人間の判断との強い相関を達成し、対話評価のための新しいベンチマークを確立します。
私たちのコードとデータは公開されています。
要約(オリジナル)
Automatic open-domain dialogue evaluation has attracted increasing attention, yet remains challenging due to the complexity of assessing response appropriateness. Traditional evaluation metrics, typically trained with true positive and randomly selected negative responses, tend to assign higher scores to responses that share greater content similarity with contexts. However, adversarial negative responses, despite possessing high lexical overlap with contexts, can be semantically incongruous. Consequently, existing metrics struggle to effectively evaluate such responses, resulting in low correlations with human judgments. While recent studies have demonstrated the effectiveness of Large Language Models (LLMs) for open-domain dialogue evaluation, they still face challenges in handling adversarial negative examples. We propose a novel evaluation framework that integrates Abstract Meaning Representation (AMR) enhanced domain-specific language models (SLMs) with LLMs. Our SLMs explicitly incorporate AMR graph information through a gating mechanism for enhanced semantic representation learning, while both SLM predictions and AMR knowledge are integrated into LLM prompts for robust evaluation. Extensive experiments on open-domain dialogue evaluation tasks demonstrate the superiority of our method compared to state-of-the-art baselines. Our comprehensive ablation studies reveal that AMR graph information contributes substantially more to performance improvements. Our framework achieves strong correlations with human judgments across multiple datasets, establishing a new benchmark for dialogue evaluation. Our code and data are publicly available.
arxiv情報
著者 | Bohao Yang,Kun Zhao,Dong Liu,Liang Zhan,Chenghua Lin |
発行日 | 2025-06-11 15:02:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google