要約
この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築する最初の試みを紹介します。特に、マルチターン会話におけるリアルタイムの音声間の対話を可能にするように調整されています。
当社のエンドツーエンド モデルには、デコーダ専用のトランスフォーマー アーキテクチャが組み込まれており、同時に話したり聞いたりできる全二重機能など、会話の流れを維持しながらシームレスな対話を実現することを目指しています。
この論文では、合成ダイアログによるデータの準備やリアルタイム インタラクションの調整などのトレーニング プロセスについても詳しく説明しています。
また、複数ターンの対話における会話の流暢さと応答の一貫性を評価するプラットフォームも開発しました。
このレポートの公開が、台湾華語での音声 LLM の将来の発展に貢献できることを願っています。
要約(オリジナル)
This technical report presents our initial attempt to build a spoken large language model (LLM) for Taiwanese Mandarin, specifically tailored to enable real-time, speech-to-speech interaction in multi-turn conversations. Our end-to-end model incorporates a decoder-only transformer architecture and aims to achieve seamless interaction while preserving the conversational flow, including full-duplex capabilities allowing simultaneous speaking and listening. The paper also details the training process, including data preparation with synthesized dialogues and adjustments for real-time interaction. We also developed a platform to evaluate conversational fluency and response coherence in multi-turn dialogues. We hope the release of the report can contribute to the future development of spoken LLMs in Taiwanese Mandarin.
arxiv情報
著者 | Chih-Kai Yang,Yu-Kuan Fu,Chen-An Li,Yi-Cheng Lin,Yu-Xiang Lin,Wei-Chih Chen,Ho Lam Chung,Chun-Yi Kuan,Wei-Ping Huang,Ke-Han Lu,Tzu-Quan Lin,Hsiu-Hsuan Wang,En-Pei Hu,Chan-Jan Hsu,Liang-Hsuan Tseng,I-Hsiang Chiu,Ulin Sanga,Xuanjun Chen,Po-chun Hsu,Shu-wen Yang,Hung-yi Lee |
発行日 | 2024-11-11 16:37:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google