Conversational Feedback in Scripted versus Spontaneous Dialogues: A Comparative Analysis

要約

映画やテレビの字幕などのスクリプト化された対話は、会話型 NLP モデルのトレーニング データの広範なソースを構成します。
ただし、これらの対話の言語的特徴は、自発的な対話のコーパスで観察される言語的特徴とは著しく異なります。
この違いは、バックチャネル、承認、説明要求などのコミュニケーション上のフィードバックやグラウンディング現象で特に顕著です。
このような信号は、会話フローの重要な部分を構成することが知られており、対話の参加者が進行中の対話の認識について相互にフィードバックを提供するために使用されます。
この論文では、字幕と自発的な会話の両方におけるこのようなコミュニケーションフィードバック現象の定量的分析を示します。
英語、フランス語、ドイツ語、ハンガリー語、イタリア語、日本語、ノルウェー語、中国語の対話データに基づいて、ニューラル対話アクトタガーで得られた語彙統計と分類出力の両方を抽出します。
この実証研究の 2 つの主な発見は、(1) 字幕では自発的な対話に比べて会話によるフィードバックの頻度が著しく低いこと、および (2) 字幕には否定的なフィードバックがより高い割合で含まれていることです。
さらに、大規模な言語モデルによって生成される対話応答も同じ根本的な傾向に従い、それらのモデルが自発的な対話に対して明示的に微調整されている場合を除き、コミュニケーションによるフィードバックの発生が比較的少ないことを示します。

要約(オリジナル)

Scripted dialogues such as movie and TV subtitles constitute a widespread source of training data for conversational NLP models. However, the linguistic characteristics of those dialogues are notably different from those observed in corpora of spontaneous interactions. This difference is particularly marked for communicative feedback and grounding phenomena such as backchannels, acknowledgments, or clarification requests. Such signals are known to constitute a key part of the conversation flow and are used by the dialogue participants to provide feedback to one another on their perception of the ongoing interaction. This paper presents a quantitative analysis of such communicative feedback phenomena in both subtitles and spontaneous conversations. Based on dialogue data in English, French, German, Hungarian, Italian, Japanese, Norwegian and Chinese, we extract both lexical statistics and classification outputs obtained with a neural dialogue act tagger. Two main findings of this empirical study are that (1) conversational feedback is markedly less frequent in subtitles than in spontaneous dialogues and (2) subtitles contain a higher proportion of negative feedback. Furthermore, we show that dialogue responses generated by large language models also follow the same underlying trends and include comparatively few occurrences of communicative feedback, except when those models are explicitly fine-tuned on spontaneous dialogues.

arxiv情報

著者 Ildikó Pilán,Laurent Prévot,Hendrik Buschmeier,Pierre Lison
発行日 2023-09-27 13:45:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク