VoiceBench: Benchmarking LLM-Based Voice Assistants

要約

大規模言語モデル (LLM) の成功に基づいて、GPT-4o などの最近の進歩により、LLM ベースの音声アシスタントによるリアルタイムの音声対話が可能になり、従来のテキストベースの対話と比較してユーザー エクスペリエンスが大幅に向上しました。
しかし、これらの音声対話機能を評価するために設計されたベンチマークが存在しないため、LLM ベースの音声アシスタント開発の進歩が妨げられてきました。
現在の評価は、主に自動音声認識 (ASR) やきれいなスピーチによる一般知識の評価に焦点を当てており、多様な話者の特性、環境、内容の要因を含む、より複雑な現実世界のシナリオは無視されています。
これに対処するために、LLM ベースの音声アシスタントの多面的な評価を提供するように設計された最初のベンチマークである VoiceBench を紹介します。
VoiceBench には、上記の 3 つの主要な現実世界のバリエーションを組み込んだ実際の音声指示と合成音声指示の両方も含まれています。
広範な実験により、現在の LLM ベースの音声アシスタント モデルの限界が明らかになり、この分野の将来の研究開発に貴重な洞察が得られます。

要約(オリジナル)

Building on the success of large language models (LLMs), recent advancements such as GPT-4o have enabled real-time speech interactions through LLM-based voice assistants, offering a significantly improved user experience compared to traditional text-based interactions. However, the absence of benchmarks designed to evaluate these speech interaction capabilities has hindered progress of LLM-based voice assistants development. Current evaluations focus primarily on automatic speech recognition (ASR) or general knowledge evaluation with clean speeches, neglecting the more intricate, real-world scenarios that involve diverse speaker characteristics, environmental and content factors. To address this, we introduce VoiceBench, the first benchmark designed to provide a multi-faceted evaluation of LLM-based voice assistants. VoiceBench also includes both real and synthetic spoken instructions that incorporate the above three key real-world variations. Extensive experiments reveal the limitations of current LLM-based voice assistant models and offer valuable insights for future research and development in this field.

arxiv情報

著者 Yiming Chen,Xianghu Yue,Chen Zhang,Xiaoxue Gao,Robby T. Tan,Haizhou Li
発行日 2024-10-22 17:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク