要約
音声対話は人間と AI の対話において重要な役割を果たしており、対話指向の音声言語モデル (SLM) が必要です。
汎用性の高い SLM を開発するには、大規模で多様な音声データセットが不可欠です。
さらに、高品質の音声生成を保証するには、データは自然環境のデータのように自発的であり、ノイズが除去されて音響的にクリーンである必要があります。
重要なニーズにもかかわらず、これらの基準をすべて満たすオープンソース コーパスは利用できません。
この研究では、一般にアクセス可能な大規模な音声対話コーパス「Japanese Corpus for Human-AI Talks (J-CHAT)」を構築し公開することで、このギャップに対処しています。
さらに、本論文はコーパス構築のための言語に依存しない方法を提示し、J-CHATで訓練されたSLMを使用した対話生成の実験について説明します。
実験結果は、私たちの方法によって複数のドメインから収集されたデータが対話生成の自然さと有意義さを向上させることを示しています。
要約(オリジナル)
Spoken dialogue plays a crucial role in human-AI interactions, necessitating dialogue-oriented spoken language models (SLMs). To develop versatile SLMs, large-scale and diverse speech datasets are essential. Additionally, to ensure hiqh-quality speech generation, the data must be spontaneous like in-wild data and must be acoustically clean with noise removed. Despite the critical need, no open-source corpus meeting all these criteria has been available. This study addresses this gap by constructing and releasing a large-scale spoken dialogue corpus, named Japanese Corpus for Human-AI Talks (J-CHAT), which is publicly accessible. Furthermore, this paper presents a language-independent method for corpus construction and describes experiments on dialogue generation using SLMs trained on J-CHAT. Experimental results indicate that the collected data from multiple domains by our method improve the naturalness and meaningfulness of dialogue generation.
arxiv情報
著者 | Wataru Nakata,Kentaro Seki,Hitomi Yanaka,Yuki Saito,Shinnosuke Takamichi,Hiroshi Saruwatari |
発行日 | 2024-07-22 17:46:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google