要約
全二重音声対話システムは、従来のターンベースの対話システムを大幅に凌駕しており、人間と人間の対話を忠実に反映した双方向の同時コミュニケーションが可能である。しかし、全二重対話システムにおいて、低遅延で自然な対話を実現することは、特に、中断、バックチャネル、重複発話などの人間の会話のダイナミクスを考慮すると、依然として重要な課題である。本論文では、低遅延で自然な会話に固有の複雑な振る舞いを効果的にモデル化できる、全二重会話のための新しいEnd-to-End GPTベースのモデルOmniFlattenを紹介する。全二重会話機能を実現するために、テキスト大規模言語モデル(LLM)のバックボーンを、バックボーンLLMのアーキテクチャを変更することなく、リアルタイムでテキストと音声を生成できる音声テキスト対話LLMに段階的に適応させる、多段階のポストトレーニングスキームを提案する。学習プロセスは、モダリティアライメント、半二重対話学習、全二重対話学習の3段階からなる。全ての学習段階において、平坦化操作を用いてデータを標準化し、異なるモダリティやタスク間で学習方法とGPTバックボーンを統一することを可能にする。我々のアプローチは、効率的で自然なエンドツーエンドの全二重音声対話システムを開発するための、シンプルなモデリング手法と有望な研究方向を提供する。OmniFlattenによって生成されたダイアログの音声サンプルは、こちらのウェブサイト(https://omniflatten.github.io/)でご覧いただけます。
要約(オリジナル)
Full-duplex spoken dialogue systems significantly surpass traditional turn-based dialogue systems, as they allow simultaneous bidirectional communication, closely mirroring human-human interactions. However, achieving low latency and natural interactions in full-duplex dialogue systems remains a significant challenge, especially considering human conversation dynamics such as interruptions, backchannels, and overlapping speech. In this paper, we introduce a novel End-to-End GPT-based model OmniFlatten for full-duplex conversation, capable of effectively modeling the complex behaviors inherent to natural conversations with low latency. To achieve full-duplex conversation capabilities, we propose a multi-stage post-training scheme that progressively adapts a text large language model (LLM) backbone into a speech-text dialogue LLM, capable of generating text and speech in real time, without modifying the architecture of the backbone LLM. The training process comprises three stages: modality alignment, half-duplex dialogue learning, and full-duplex dialogue learning. In all training stages, we standardize the data using a flattening operation, which enables unifying the training methods and the GPT backbone across different modalities and tasks. Our approach offers a simple modeling technique and a promising research direction for developing efficient and natural end-to-end full-duplex spoken dialogue systems. Audio samples of dialogues generated by OmniFlatten can be found at this web site (https://omniflatten.github.io/).
arxiv情報
著者 | Qinglin Zhang,Luyao Cheng,Chong Deng,Qian Chen,Wen Wang,Siqi Zheng,Jiaqing Liu,Hai Yu,Chaohong Tan,Zhihao Du,Shiliang Zhang |
発行日 | 2025-01-03 06:15:58+00:00 |
arxivサイト | arxiv_id(pdf) |