OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation

要約

全二重音声対話システムは、人間と人間のやりとりを厳密に反映した同時双方向通信を可能にするため、従来のターンベースの対話システムよりも大幅に進歩しています。
しかし、全二重対話システムで低遅延で自然な対話を実現することは、特に中断、相槌、音声の重複など人間の会話のダイナミクスを考慮すると、依然として大きな課題です。
この論文では、自然な会話に固有の複雑な動作を低遅延で効果的にモデル化できる、全二重会話用の新しいエンドツーエンド GPT ベースのモデル OmniFlatten を紹介します。
全二重通信機能を実現するために、テキストベースの大規模言語モデル (LLM) バックボーンを、リアルタイムでテキストと音声を生成できる音声テキスト対話 LLM に段階的に適応させる、多段階のポストトレーニング スキームを提案します。
バックボーン LLM のアーキテクチャを変更する必要はありません。
トレーニング プロセスは、モダリティ調整、半二重対話学習、全二重対話学習の 3 つの段階で構成されます。
すべてのトレーニング段階を通じて、平坦化操作を使用してデータを標準化します。これにより、さまざまなモダリティやタスクにわたってトレーニング方法とモデル アーキテクチャを統一できます。
私たちのアプローチは、効率的で自然なエンドツーエンドの全二重音声対話システムを開発するための簡単なモデリング技術と有望な研究の方向性を提供します。
OmniFlatten によって生成されたダイアログの音声サンプルは、この Web サイト (https://omni flatten.github.io/) で見つけることができます。

要約(オリジナル)

Full-duplex spoken dialogue systems significantly advance over traditional turn-based dialogue systems, as they allow simultaneous bidirectional communication, closely mirroring human-human interactions. However, achieving low latency and natural interactions in full-duplex dialogue systems remains a significant challenge, especially considering human conversation dynamics such as interruptions, backchannels, and overlapping speech. In this paper, we introduce a novel End-to-End GPT-based model OmniFlatten for full-duplex conversation, capable of effectively modeling the complex behaviors inherent to natural conversations with low latency. To achieve full-duplex communication capabilities, we propose a multi-stage post-training scheme that progressively adapts a text-based large language model (LLM) backbone into a speech-text dialogue LLM, capable of generating text and speech in real time, without modifying the architecture of the backbone LLM. The training process comprises three stages: modality alignment, half-duplex dialogue learning, and full-duplex dialogue learning. Throughout all training stages, we standardize the data using a flattening operation, which allows us to unify the training methods and the model architecture across different modalities and tasks. Our approach offers a straightforward modeling technique and a promising research direction for developing efficient and natural end-to-end full-duplex spoken dialogue systems. Audio samples of dialogues generated by OmniFlatten can be found at this web site (https://omniflatten.github.io/).

arxiv情報

著者 Qinglin Zhang,Luyao Cheng,Chong Deng,Qian Chen,Wen Wang,Siqi Zheng,Jiaqing Liu,Hai Yu,Chaohong Tan
発行日 2024-10-23 11:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク