要約
人間とコンピュータのチャットは最近大きく進歩しました。
しかし、現在、適切な評価には人間の判断が必要であり、その固有の主観性により、悪名高いばらつきの大きい指標が生成されます。
さらに、評価に使用される方法やラベルの標準化がほとんどなく、さまざまな評価アプローチの妥当性を比較および評価する作業が全体的に不足しています。
その結果、既存の評価結果では、オープンドメインのチャットボットの長所と短所について不完全な全体像が残る可能性があります。
私たちは、チャットの品質のいくつかの異なる側面を確実に測定できる、人間とコンピューターのチャットの次元評価を目指しています。
この目的を達成するために、品質関連のチャットボットのいくつかの動作の割合を定量化する新しい人間による評価方法を紹介します。
私たちの結果は、私たちの方法が代替リッカートスタイルまたは比較方法よりも次元チャット評価に適していることを示しています。
次に、検証済みの方法と既存の方法を使用して、最近の文献から 4 つのオープン ドメイン チャット モデルを評価します。
要約(オリジナル)
There has been great recent advancement in human-computer chat. However, proper evaluation currently requires human judgements that produce notoriously high-variance metrics due to their inherent subjectivity. Furthermore, there is little standardization in the methods and labels used for evaluation, with an overall lack of work to compare and assess the validity of various evaluation approaches. As a consequence, existing evaluation results likely leave an incomplete picture of the strengths and weaknesses of open-domain chatbots. We aim towards a dimensional evaluation of human-computer chat that can reliably measure several distinct aspects of chat quality. To this end, we present our novel human evaluation method that quantifies the rate of several quality-related chatbot behaviors. Our results demonstrate our method to be more suitable for dimensional chat evaluation than alternative likert-style or comparative methods. We then use our validated method and existing methods to evaluate four open-domain chat models from the recent literature.
arxiv情報
著者 | Sarah E. Finch,James D. Finch,Jinho D. Choi |
発行日 | 2023-05-26 14:31:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google