ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems

要約

Audio Foundation Models(FMS)の進歩は、エンドツーエンド(E2E)の音声対話システムへの関心を高めていますが、各システムのWebインターフェイスは異なるため、それらを効果的に比較対照することが困難になります。
これに動機付けられて、私たちは、さまざまなカスケードおよびE2Eの音声音声ダイアログシステム向けに統一されたWebインターフェイスを構築するように設計されたオープンソースのユーザーフレンドリーなツールキットを導入します。
Demoはさらに、ユーザーに、(1)レイテンシ、(2)ユーザー入力を理解する能力、(3)コヒーレンス、多様性、およびシステム応答の関連性、(4)システム出力のオーディオ品質など、オンザフライフライの自動評価メトリックを取得するオプションを提供します。
評価メトリックを使用して、さまざまなカスケードとE2Eの話し言葉システムを人間の人間の会話データセットと比較します。
私たちの分析は、このツールキットにより、研究者がさまざまなテクノロジーを簡単に比較して対比できることを示しており、現在のE2Eシステムなどの貴重な洞察をオーディオの品質が低く、より多様な応答を提供します。
Toolkitを使用して作成されたデモの例は、https://huggingface.co/spaces/siddhant/voice_assistant_demoで公開されています。

要約(オリジナル)

Advancements in audio foundation models (FMs) have fueled interest in end-to-end (E2E) spoken dialogue systems, but different web interfaces for each system makes it challenging to compare and contrast them effectively. Motivated by this, we introduce an open-source, user-friendly toolkit designed to build unified web interfaces for various cascaded and E2E spoken dialogue systems. Our demo further provides users with the option to get on-the-fly automated evaluation metrics such as (1) latency, (2) ability to understand user input, (3) coherence, diversity, and relevance of system response, and (4) intelligibility and audio quality of system output. Using the evaluation metrics, we compare various cascaded and E2E spoken dialogue systems with a human-human conversation dataset as a proxy. Our analysis demonstrates that the toolkit allows researchers to effortlessly compare and contrast different technologies, providing valuable insights such as current E2E systems having poorer audio quality and less diverse responses. An example demo produced using our toolkit is publicly available here: https://huggingface.co/spaces/Siddhant/Voice_Assistant_Demo.

arxiv情報

著者 Siddhant Arora,Yifan Peng,Jiatong Shi,Jinchuan Tian,William Chen,Shikhar Bharadwaj,Hayato Futami,Yosuke Kashiwagi,Emiru Tsunoo,Shuichiro Shimizu,Vaibhav Srivastav,Shinji Watanabe
発行日 2025-03-11 15:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク