Oh, Jeez! or Uh-huh? A Listener-aware Backchannel Predictor on ASR Transcriptions

要約

タイトル:音声認識転写におけるリスナーアウェアなバックチャンネル予測

要約:
– この論文は、会話におけるバックチャンネル(相槌などの無音発話)のモデリングに関する最新研究を紹介している。
– 会話のプロアクティブバックチャンネル理論に着想を得て、スピーカーや会話に影響を与えるバックチャンネルを挿入するプロアクティブリスナーとして振る舞うシステムを開発することを目指している。
– このモデルは、語彙的および音響的手がかりだけでなく、リスナー埋め込みを使用するというシンプルで新しいアイデアを導入して、異なるバックチャンネリングの振る舞いを模倣する。
– Switchboardベンチマークデータセット上の実験結果は、このタスクで音響的手がかりが語彙的手がかりよりも重要であり、リスナー埋め込みとの組み合わせが手動転写と自動生成転写の両方で最も効果的であることを示している。

要約(オリジナル)

This paper presents our latest investigation on modeling backchannel in conversations. Motivated by a proactive backchanneling theory, we aim at developing a system which acts as a proactive listener by inserting backchannels, such as continuers and assessment, to influence speakers. Our model takes into account not only lexical and acoustic cues, but also introduces the simple and novel idea of using listener embeddings to mimic different backchanneling behaviours. Our experimental results on the Switchboard benchmark dataset reveal that acoustic cues are more important than lexical cues in this task and their combination with listener embeddings works best on both, manual transcriptions and automatically generated transcriptions.

arxiv情報

著者 Daniel Ortega,Chia-Yu Li,Ngoc Thang Vu
発行日 2023-04-10 09:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク