SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents

要約

タスク指向対話 (TOD) モデルは、近年大幅に進歩しました。
ただし、これまでの研究は主にアノテーターによって記述されたデータセットに焦点を当てており、その結果、学術研究と現実世界の音声会話シナリオとの間にギャップが生じていました。
ASR エラーなどの堅牢性の問題に対処するために、いくつかの小規模な音声 TOD データセットが提案されていますが、それらは音声会話特有の課題を無視しています。
この制限に対処するために、SpokenWOZ を導入します。これは、8 つのドメイン、203,000 ターン、5.7,000 の対話、および人間同士の音声会話からの 249 時間の音声を含む、音声 TOD 用の大規模音声テキスト データセットです。
SpokenWOZ には、音声言語での単語ごとの処理や推論など、一般的な音声特性がさらに組み込まれています。
これらの特徴を踏まえ、新たな課題としてクロスターンスロットと推論スロットの検出を提示します。
私たちは、テキストモーダル モデル、新しく提案されたデュアルモーダル モデル、LLM (ChatGPT など) を含むさまざまなベースラインで実験を実施します。
結果は、現在のモデルには音声会話においてまだ改善の余地がかなりあることを示しています。最先端の対話状態トラッカーは共同目標精度で 25.65% しか達成できず、SOTA エンドツーエンド モデルはユーザー リクエストを正しく完了するのが 52.1% にすぎません。
対話の。
データセット、コード、リーダーボードは https://spokenwoz.github.io/ から入手できます。

要約(オリジナル)

Task-oriented dialogue (TOD) models have made significant progress in recent years. However, previous studies primarily focus on datasets written by annotators, which has resulted in a gap between academic research and real-world spoken conversation scenarios. While several small-scale spoken TOD datasets are proposed to address robustness issues such as ASR errors, they ignore the unique challenges in spoken conversation. To tackle the limitations, we introduce SpokenWOZ, a large-scale speech-text dataset for spoken TOD, containing 8 domains, 203k turns, 5.7k dialogues and 249 hours of audios from human-to-human spoken conversations. SpokenWOZ further incorporates common spoken characteristics such as word-by-word processing and reasoning in spoken language. Based on these characteristics, we present cross-turn slot and reasoning slot detection as new challenges. We conduct experiments on various baselines, including text-modal models, newly proposed dual-modal models, and LLMs, e.g., ChatGPT. The results show that the current models still have substantial room for improvement in spoken conversation, where the most advanced dialogue state tracker only achieves 25.65% in joint goal accuracy and the SOTA end-to-end model only correctly completes the user request in 52.1% of dialogues. The dataset, code, and leaderboard are available: https://spokenwoz.github.io/.

arxiv情報

著者 Shuzheng Si,Wentao Ma,Haoyu Gao,Yuchuan Wu,Ting-En Lin,Yinpei Dai,Hangyu Li,Rui Yan,Fei Huang,Yongbin Li
発行日 2024-03-12 08:52:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク