Large Language Models Know What To Say But Not When To Speak

要約

交代は人間のコミュニケーションにおける基本的なメカニズムであり、スムーズで一貫した言葉によるやり取りを保証します。
大規模言語モデル (LLM) の最近の進歩により、適切なタイミングで応答する能力など、音声対話システム (SDS) の順番交代機能の向上に LLM の使用が促進されています。
しかし、既存のモデルは、ターン内の TRP ではなくターン終了の TRP のみに焦点を当てており、台本なしの自然な会話で発話の機会 (TRP) と呼ばれる発話の機会を予測するのに苦労することがよくあります。
これらの制限に対処するために、参加者によってラベル付けされたターン内 TRP の新しいデータセットを導入し、それを使用して、発言の機会を予測する際の最先端の LLM のパフォーマンスを評価します。
私たちの実験により、台本なしの音声対話のモデリングにおける LLM の現在の限界が明らかになり、改善の余地があることが明らかになり、より自然な対話システムへの道が開かれました。

要約(オリジナル)

Turn-taking is a fundamental mechanism in human communication that ensures smooth and coherent verbal interactions. Recent advances in Large Language Models (LLMs) have motivated their use in improving the turn-taking capabilities of Spoken Dialogue Systems (SDS), such as their ability to respond at appropriate times. However, existing models often struggle to predict opportunities for speaking — called Transition Relevance Places (TRPs) — in natural, unscripted conversations, focusing only on turn-final TRPs and not within-turn TRPs. To address these limitations, we introduce a novel dataset of participant-labeled within-turn TRPs and use it to evaluate the performance of state-of-the-art LLMs in predicting opportunities for speaking. Our experiments reveal the current limitations of LLMs in modeling unscripted spoken interactions, highlighting areas for improvement and paving the way for more naturalistic dialogue systems.

arxiv情報

著者 Muhammad Umair,Vasanth Sarathy,JP de Ruiter
発行日 2024-10-21 14:20:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク