要約
話しかけられた対話モデリングは、テキストベースの言語モデリングを超えた独自の課題を導入し、堅牢なターンテイキング、バックチャネル、およびリアルタイムの相互作用を要求します。
ほとんどの話し言葉モデル(SDMS)は半分二重処理に依存していますが(一度に1回のスピーチを処理する)、新たな二重SDMが同時に聞いて話すことができ、より自然で魅力的な会話を可能にします。
ただし、このようなモデルの現在の評価は限られたままであり、多くの場合、ターンベースのメトリックまたは高レベルのコーパス分析に焦点を当てています(例:ターンギャップ、ポーズ)。
このギャップに対処するために、主要な会話行動を体系的に評価する新しいベンチマークである全二重ベンチを提示します:一時停止処理、バックチャネル、ターンテイキング、および中断管理。
私たちのフレームワークは、SDMSのインタラクティブパフォーマンスの一貫した再現性のある評価のために自動メトリックを使用しています。
オープンで標準化された評価ベンチマークを提供することにより、私たちは話し言葉のモデリングを進め、よりインタラクティブで自然な対話システムの開発を促進することを目指しています。
要約(オリジナル)
Spoken dialogue modeling introduces unique challenges beyond text-based language modeling, demanding robust turn-taking, backchanneling, and real-time interaction. Although most Spoken Dialogue Models (SDMs) rely on half-duplex processing (handling speech one turn at a time), emerging full-duplex SDMs can listen and speak simultaneously, enabling more natural and engaging conversations. However, current evaluations of such models remain limited, often focusing on turn-based metrics or high-level corpus analyses (e.g., turn gaps, pauses). To address this gap, we present Full-Duplex-Bench, a new benchmark that systematically evaluates key conversational behaviors: pause handling, backchanneling, turn-taking, and interruption management. Our framework uses automatic metrics for consistent and reproducible assessments of SDMs’ interactive performance. By offering an open and standardized evaluation benchmark, we aim to advance spoken dialogue modeling and encourage the development of more interactive and natural dialogue systems.
arxiv情報
著者 | Guan-Ting Lin,Jiachen Lian,Tingle Li,Qirui Wang,Gopala Anumanchipalli,Alexander H. Liu,Hung-yi Lee |
発行日 | 2025-03-06 18:59:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google