要約
GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声領域で大きな注目を集めています。
音声認識 (ASR)、大規模言語モデル (LLM)、およびテキスト読み上げ (TTS) で構成される従来の 3 層カスケード音声対話モデルと比較して、最新の音声対話モデルは優れたインテリジェンスを示します。
これらの高度な音声対話モデルは、オーディオ、音楽、その他の音声関連の機能を理解するだけでなく、音声の文体や音色の特徴も捕捉します。
さらに、低遅延で高品質のマルチターン音声応答を生成し、同時聞き取りとスピーキング機能によるリアルタイムの対話を可能にします。
音声対話システムは進歩しているにもかかわらず、これらのシステムとその基盤となるテクノロジーを体系的に整理して分析する包括的な調査が不足しています。
これに対処するために、私たちはまず既存の音声対話システムを時系列にまとめ、カスケード パラダイムとエンドツーエンド パラダイムに分類しました。
次に、音声表現、トレーニング パラダイム、ストリーミング、二重通信、対話機能などの側面をカバーする、音声対話モデルのコア テクノロジーの詳細な概要を提供します。
各セクションでは、これらのテクノロジーの限界について説明し、将来の研究における考慮事項の概要を説明します。
さらに、音声対話システムのトレーニングと評価の観点から、関連するデータセット、評価指標、ベンチマークを徹底的にレビューします。
この調査が音声対話システム分野における学術研究と産業応用の両方の発展に貢献することを願っています。
関連資料は https://github.com/jishengpeng/WavChat で入手できます。
要約(オリジナル)
Recent advancements in spoken dialogue models, exemplified by systems like GPT-4o, have captured significant attention in the speech domain. Compared to traditional three-tier cascaded spoken dialogue models that comprise speech recognition (ASR), large language models (LLMs), and text-to-speech (TTS), modern spoken dialogue models exhibit greater intelligence. These advanced spoken dialogue models not only comprehend audio, music, and other speech-related features, but also capture stylistic and timbral characteristics in speech. Moreover, they generate high-quality, multi-turn speech responses with low latency, enabling real-time interaction through simultaneous listening and speaking capability. Despite the progress in spoken dialogue systems, there is a lack of comprehensive surveys that systematically organize and analyze these systems and the underlying technologies. To address this, we have first compiled existing spoken dialogue systems in the chronological order and categorized them into the cascaded and end-to-end paradigms. We then provide an in-depth overview of the core technologies in spoken dialogue models, covering aspects such as speech representation, training paradigm, streaming, duplex, and interaction capabilities. Each section discusses the limitations of these technologies and outlines considerations for future research. Additionally, we present a thorough review of relevant datasets, evaluation metrics, and benchmarks from the perspectives of training and evaluating spoken dialogue systems. We hope this survey will contribute to advancing both academic research and industrial applications in the field of spoken dialogue systems. The related material is available at https://github.com/jishengpeng/WavChat.
arxiv情報
著者 | Shengpeng Ji,Yifu Chen,Minghui Fang,Jialong Zuo,Jingyu Lu,Hanting Wang,Ziyue Jiang,Long Zhou,Shujie Liu,Xize Cheng,Xiaoda Yang,Zehan Wang,Qian Yang,Jian Li,Yidi Jiang,Jingzhen He,Yunfei Chu,Jin Xu,Zhou Zhao |
発行日 | 2024-11-26 09:20:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google