要約
タスク指向対話 (TOD) システムのユーザー満足度推定に関するこれまでの研究で未調査の重要な側面は、ユーザーの不満の特定に対する堅牢性の観点からの評価です。TOD システムにおけるユーザー満足度推定の現在のベンチマークは、次のような対話に大きく偏っています。
ユーザーは満足しています。
よりバランスの取れた満足度ラベルのセットがパフォーマンスに与える影響は不明です。
ただし、より満足のいかない対話サンプルとデータのバランスをとるには、さらなるデータ収集と人間による注釈が必要であり、コストと時間がかかります。
この研究では、大規模言語モデル (LLM) を活用し、満足度を意識した反事実的な対話を生成するその機能を解放して、テスト コレクションの元の対話セットを強化します。
生成されたサンプルの信頼性を確保するために、人間による注釈を収集します。
私たちは、最先端の微調整されたモデルに対して、拡張コレクションのユーザー満足度推定ツールとして 2 つのオープンソース LLM を評価します。
私たちの実験では、オープンソース LLM を少数ショットのユーザー満足度推定器として使用した場合、微調整された最先端のモデルよりも、テスト コレクション内の不満ラベルの数の増加に対して高い堅牢性を示すことがわかりました。
私たちの結果は、TOD システムにおけるユーザー満足度推定のためのデータ拡張アプローチの必要性を明らかにしています。
私たちは、このトピックに関するさらなる研究を促進するために、人間の注釈によって厳選された、調整された反事実対話をリリースします。
要約(オリジナル)
An important unexplored aspect in previous work on user satisfaction estimation for Task-Oriented Dialogue (TOD) systems is their evaluation in terms of robustness for the identification of user dissatisfaction: current benchmarks for user satisfaction estimation in TOD systems are highly skewed towards dialogues for which the user is satisfied. The effect of having a more balanced set of satisfaction labels on performance is unknown. However, balancing the data with more dissatisfactory dialogue samples requires further data collection and human annotation, which is costly and time-consuming. In this work, we leverage large language models (LLMs) and unlock their ability to generate satisfaction-aware counterfactual dialogues to augment the set of original dialogues of a test collection. We gather human annotations to ensure the reliability of the generated samples. We evaluate two open-source LLMs as user satisfaction estimators on our augmented collection against state-of-the-art fine-tuned models. Our experiments show that when used as few-shot user satisfaction estimators, open-source LLMs show higher robustness to the increase in the number of dissatisfaction labels in the test collection than the fine-tuned state-of-the-art models. Our results shed light on the need for data augmentation approaches for user satisfaction estimation in TOD systems. We release our aligned counterfactual dialogues, which are curated by human annotation, to facilitate further research on this topic.
arxiv情報
著者 | Amin Abolghasemi,Zhaochun Ren,Arian Askari,Mohammad Aliannejadi,Maarten de Rijke,Suzan Verberne |
発行日 | 2024-08-20 10:56:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google