Towards a Japanese Full-duplex Spoken Dialogue System

要約

全二重音声対話システムは、音声の重なりやバックチャネルといった人間の会話の双方向性を同時にモデル化できるシステムであり、近年大きな注目を集めている。しかし、日本語を対象とした全二重音声対話システムの研究は限られており、日本語での開発研究も少ないのが現状である。本論文では、英語の全二重対話モデルであるMoshiをベースに構築された、日本語で初めて公開された全二重音声対話モデルを紹介する。このモデルは、大規模な日本語音声対話データに対する事前学習と、高品質なステレオ音声対話データに対する微調整という2段階のプロセスを通じて学習される。さらに、マルチストリーム音声合成システムによって生成された合成対話データを取り込むことで、モデルの性能を向上させる。評価実験の結果、学習されたモデルは、自然さと意味性の両方において、日本語のベースラインモデルを凌駕することが実証された。

要約(オリジナル)

Full-duplex spoken dialogue systems, which can model simultaneous bidirectional features of human conversations such as speech overlaps and backchannels, have attracted significant attention recently. However, the study of full-duplex spoken dialogue systems for the Japanese language has been limited, and the research on their development in Japanese remains scarce. In this paper, we present the first publicly available full-duplex spoken dialogue model in Japanese, which is built upon Moshi, a full-duplex dialogue model in English. Our model is trained through a two-stage process: pre-training on a large-scale spoken dialogue data in Japanese, followed by fine-tuning on high-quality stereo spoken dialogue data. We further enhance the model’s performance by incorporating synthetic dialogue data generated by a multi-stream text-to-speech system. Evaluation experiments demonstrate that the trained model outperforms Japanese baseline models in both naturalness and meaningfulness.

arxiv情報

著者 Atsumoto Ohashi,Shinya Iizuka,Jingjing Jiang,Ryuichiro Higashinaka
発行日 2025-06-03 15:16:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, eess.AS パーマリンク