Modeling Speaker-Listener Interaction for Backchannel Prediction

要約

タイトル:話し手-聞き手相互作用のモデリングによるバックチャンネル予測

要約:
– YeahとUh-huhなどの最小応答が英語とドイツ語でどのように使われるかをモデル化して、話し手-聞き手相互作用の影響を調べることを目的とする。
– バックチャンネル理論は、会話の中で聞き手が積極的で連続的な役割を果たし、話し手の後続の発言に影響を与え、それによって生じる動的な話し手-聞き手相互作用を強調している。
– そのため、話し手の音声から音響特徴を処理して、聞き手のバックチャンネル行動をキャプチャし模倣し、話し手-聞き手相互作用を符号化するニューラルベースの音響バックチャンネル分類器を提案する。
– SwitchboardおよびGECOデータセットにおける実験結果は、ほとんどの場合において、話し手または聞き手の行動埋め込みがモデルがより正確なバックチャンネル予測を行うのに役立つことを示している。
– 特に、適切な相互作用符号化戦略、すなわち話し手と聞き手の埋め込みを組み合わせることが、F1スコアの観点で両方のデータセットで最高のパフォーマンスを発揮する。

要約(オリジナル)

We present our latest findings on backchannel modeling novelly motivated by the canonical use of the minimal responses Yeah and Uh-huh in English and their correspondent tokens in German, and the effect of encoding the speaker-listener interaction. Backchanneling theories emphasize the active and continuous role of the listener in the course of the conversation, their effects on the speaker’s subsequent talk, and the consequent dynamic speaker-listener interaction. Therefore, we propose a neural-based acoustic backchannel classifier on minimal responses by processing acoustic features from the speaker speech, capturing and imitating listeners’ backchanneling behavior, and encoding speaker-listener interaction. Our experimental results on the Switchboard and GECO datasets reveal that in almost all tested scenarios the speaker or listener behavior embeddings help the model make more accurate backchannel predictions. More importantly, a proper interaction encoding strategy, i.e., combining the speaker and listener embeddings, leads to the best performance on both datasets in terms of F1-score.

arxiv情報

著者 Daniel Ortega,Sarina Meyer,Antje Schweitzer,Ngoc Thang Vu
発行日 2023-04-10 09:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク