An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue Systems

要約

音声対話システムの評価スキームを確立することは重要ですが、困難な場合もあります。
ユーザー実験では主観的な評価が一般的ですが、研究の比較や再現性のためには客観的な評価も必要です。
この問題に対処するために、私たちはユーザーの行動に基づいてシステムを間接的かつ客観的に評価するためのフレームワークを提案します。
そこで本論文では、傾聴、就職面接、初対面での会話などの社会対話課題におけるユーザーの行動と主観的評価スコアとの関係を調査した。
その結果、傾聴や就職面接など、ユーザーの発話が主体となる対話タスクでは、発話数や単語数などの指標が評価に重要な役割を果たしていることが明らかになった。
流暢さの観察は、就職面接などの正式なタスクの有効性を示すこともあります。
一方で、初対面での会話など双方向性の高い対話タスクでは、平均スイッチポーズ長などの交代に関連した動作がより重要になります。
これらの調査結果は、適切なユーザー行動を選択することで、各社会対話タスクにおける客観的な評価のための貴重な洞察が得られることを示唆しています。

要約(オリジナル)

Establishing evaluation schemes for spoken dialogue systems is important, but it can also be challenging. While subjective evaluations are commonly used in user experiments, objective evaluations are necessary for research comparison and reproducibility. To address this issue, we propose a framework for indirectly but objectively evaluating systems based on users’ behaviors. In this paper, to this end, we investigate the relationship between user behaviors and subjective evaluation scores in social dialogue tasks: attentive listening, job interview, and first-meeting conversation. The results reveal that in dialogue tasks where user utterances are primary, such as attentive listening and job interview, indicators like the number of utterances and words play a significant role in evaluation. Observing disfluency also can indicate the effectiveness of formal tasks, such as job interview. On the other hand, in dialogue tasks with high interactivity, such as first-meeting conversation, behaviors related to turn-taking, like average switch pause length, become more important. These findings suggest that selecting appropriate user behaviors can provide valuable insights for objective evaluation in each social dialogue task.

arxiv情報

著者 Koji Inoue,Divesh Lala,Keiko Ochi,Tatsuya Kawahara,Gabriel Skantze
発行日 2024-01-23 06:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク