Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation

要約

自動オープンドメイン対話評価はますます注目を集めています。
トレーニング可能な評価指標は、通常、真のポジティブな応答とランダムに選択されたネガティブな応答を使用してトレーニングされ、特定のコンテキストとのコンテンツの類似性がより高い応答に高いスコアを割り当てる傾向があります。
ただし、敵対的な否定的な応答は、コンテキストとの内容の類似性が高いにもかかわらず、意味的には異なります。
その結果、既存の評価指標はそのような応答を評価するには十分に堅牢ではなく、人間の判断との相関性が低くなります。
最近の研究では、オープンドメインの対話評価における大規模言語モデル (LLM) の有効性が実証されていますが、敵対的な否定的な例を効果的に処理するという課題に依然として直面しています。
この論文では、抽象意味表現 (AMR) 知識で強化されたドメイン固有言語モデル (SLM) と LLM を組み合わせた、オープンドメイン対話評価のための効果的なフレームワークを提案します。
SLM は、対話の意味表現学習を強化するためのゲート メカニズムを通じて、対話の AMR グラフ情報を明示的に組み込むことができます。
SLM からの評価結果と AMR グラフ情報の両方が LLM のプロンプトに組み込まれ、評価パフォーマンスが向上します。
オープンドメインの対話評価タスクに関する実験結果は、特に敵対的な否定的な反応の識別において、幅広い最先端のベースラインと比較して、私たちの方法の優位性を実証しています。
私たちのコードとデータは https://github.com/Bernard-Yang/SIMAMR で公開されています。

要約(オリジナル)

Automatic open-domain dialogue evaluation has attracted increasing attention. Trainable evaluation metrics, typically trained with true positive and randomly selected negative responses, tend to assign higher scores to responses that share greater content similarity with a given context. However, adversarial negative responses, despite possessing high content similarity with the contexts, are semantically different. Consequently, existing evaluation metrics are not robust enough to evaluate such responses, resulting in low correlations with human judgments. While recent studies have demonstrated the effectiveness of Large Language Models (LLMs) for open-domain dialogue evaluation, they still face challenges in effectively handling adversarial negative examples. In this paper, we propose an effective framework for open-domain dialogue evaluation, which combines domain-specific language models (SLMs) enhanced with Abstract Meaning Representation (AMR) knowledge with LLMs. The SLMs can explicitly incorporate AMR graph information of the dialogue through a gating mechanism for enhanced dialogue semantic representation learning. Both the evaluation result from the SLMs and the AMR graph information are incorporated into the LLM’s prompt for enhanced evaluation performance. Experimental results on open-domain dialogue evaluation tasks demonstrate the superiority of our method compared to a wide range of state-of-the-art baselines, especially in discriminating adversarial negative responses. Our code and data are publicly available at https://github.com/Bernard-Yang/SIMAMR.

arxiv情報

著者 Bohao Yang,Kun Zhao,Chen Tang,Dong Liu,Liang Zhan,Chenghua Lin
発行日 2024-08-16 10:03:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク