Joint Learning of Context and Feedback Embeddings in Spoken Dialogue

要約

相槌などの短いフィードバック応答は、口頭での対話において重要な役割を果たします。
これまでのところ、フィードバック応答のモデリングのほとんどはそのタイミングに焦点を当てており、語彙や韻律の形式が文脈上の適切性や会話機能にどのような影響を与えるかは無視されてきました。
この論文では、対照的な学習目標を使用して、短い対話コンテキストとフィードバック応答を同じ表現空間に埋め込む可能性を調査します。
私たちの評価では、このような埋め込みをコンテキストフィードバックの適切性の指標として、つまり米国英語の対話におけるフィードバック応答ランキングとしてどのように使用できるかに主に焦点を当てています。
私たちの結果は、モデルが同じランキングタスクを与えられた人間よりも優れたパフォーマンスを示し、学習された埋め込みがフィードバック応答の会話機能に関する情報を保持していることを示しています。

要約(オリジナル)

Short feedback responses, such as backchannels, play an important role in spoken dialogue. So far, most of the modeling of feedback responses has focused on their timing, often neglecting how their lexical and prosodic form influence their contextual appropriateness and conversational function. In this paper, we investigate the possibility of embedding short dialogue contexts and feedback responses in the same representation space using a contrastive learning objective. In our evaluation, we primarily focus on how such embeddings can be used as a context-feedback appropriateness metric and thus for feedback response ranking in U.S. English dialogues. Our results show that the model outperforms humans given the same ranking task and that the learned embeddings carry information about the conversational function of feedback responses.

arxiv情報

著者 Livia Qian,Gabriel Skantze
発行日 2024-06-11 14:22:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク