SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation

要約

オープンドメインの対話システムにおけるゴールドスタンダードの応答に関する長年にわたる 1 対多の問題は、自動評価指標に課題をもたらしています。
これまでの研究では、強力なラージ言語モデル (LLM) を適用することである程度の成功を示してきましたが、既存のアプローチは依然として 1 対多の問題に苦戦しており、ドメイン固有のシナリオでは標準以下のパフォーマンスを示します。
LLM 内の常識的な推論バイアスが、ドメイン固有の評価におけるパフォーマンスを妨げる可能性があると想定しています。
両方の問題に対処するために、オープンドメイン対話の評価に小規模で特化したモデル (SLM) と LLM の両方を活用する新しいフレームワーク SLIDE (Small and Large Integrated for Dialogue Evaluation) を提案します。
私たちのアプローチでは、いくつかの手法が導入されています。(1) ロバストな応答埋め込みと非ロバストな応答埋め込みを区別するための対照学習。
(2) 埋め込みコサイン距離とニューラル ネットワークを通じて学習された類似性を組み合わせた意味論的感度の新しいメトリクス、(3) SLM と LLM の両方からの評価結果を組み込む戦略。
私たちの経験的な結果は、私たちのアプローチが分類タスクと評価タスクの両方で最先端のパフォーマンスを達成し、さらに SLIDE エバリュエーターが人間の判断とより良い相関関係を示すことを示しています。
私たちのコードは https://github.com/hegehongcha/SLIDE-ACL2024 で入手できます。

要約(オリジナル)

The long-standing one-to-many problem of gold standard responses in open-domain dialogue systems presents challenges for automatic evaluation metrics. Though prior works have demonstrated some success by applying powerful Large Language Models (LLMs), existing approaches still struggle with the one-to-many problem, and exhibit subpar performance in domain-specific scenarios. We assume the commonsense reasoning biases within LLMs may hinder their performance in domainspecific evaluations. To address both issues, we propose a novel framework SLIDE (Small and Large Integrated for Dialogue Evaluation), that leverages both a small, specialised model (SLM), and LLMs for the evaluation of open domain dialogues. Our approach introduces several techniques: (1) Contrastive learning to differentiate between robust and non-robust response embeddings; (2) A novel metric for semantic sensitivity that combines embedding cosine distances with similarity learned through neural networks, and (3) a strategy for incorporating the evaluation results from both the SLM and LLMs. Our empirical results demonstrate that our approach achieves state-of-the-art performance in both the classification and evaluation tasks, and additionally the SLIDE evaluator exhibits better correlation with human judgements. Our code is available at https:// github.com/hegehongcha/SLIDE-ACL2024.

arxiv情報

著者 Kun Zhao,Bohao Yang,Chen Tang,Chenghua Lin,Liang Zhan
発行日 2024-05-30 02:13:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク