要約
対話は、人間とコンピューターの対話 (HCI) の最も自然な方法として機能します。
音声言語モデル (SLM) の最近の進歩により、音声ベースの会話 AI が大幅に強化されました。
ただし、これらのモデルはターンベースの会話に限定されており、リアルタイムの音声シナリオで人間と対話する機能が欠けており、たとえば、生成されたコンテンツが満足のいくものではない場合に中断されます。
これらの制限に対処するために、対話型音声言語モデル (iSLM) の全二重モデリング (FDM) を調査し、リアルタイムの対話の強化に焦点を当て、より明確に、中断の本質的な能力を調査します。
我々は、リスニングとスピーキングの両方のチャネルを備えたエンドツーエンドのシステムである、リスニングしながらスピーキング言語モデル (LSLM) という新しいモデル設計を導入します。
当社の LSLM は、音声生成にトークンベースのデコーダ専用 TTS を採用し、リアルタイム音声入力にストリーミング自己教師あり学習 (SSL) エンコーダを採用しています。
LSLM は両方のチャネルを融合して自己回帰生成を行い、リアルタイムで交代を検出します。
3 つの融合戦略 (初期融合、中期融合、後期融合) が検討されており、中期融合では音声生成とリアルタイム インタラクションの間の最適なバランスが実現されます。
コマンド ベースの FDM と音声ベースの FDM という 2 つの実験設定は、ノイズに対する LSLM の堅牢性と多様な命令に対する感度を示しています。
私たちの結果は、既存のシステムへの影響を最小限に抑えながら二重通信を実現する LSLM の機能を強調しています。
この研究は、対話型音声対話システムの開発を推進し、現実世界の状況での適用性を高めることを目的としています。
要約(オリジナル)
Dialogue serves as the most natural manner of human-computer interaction (HCI). Recent advancements in speech language models (SLM) have significantly enhanced speech-based conversational AI. However, these models are limited to turn-based conversation, lacking the ability to interact with humans in real-time spoken scenarios, for example, being interrupted when the generated content is not satisfactory. To address these limitations, we explore full duplex modeling (FDM) in interactive speech language models (iSLM), focusing on enhancing real-time interaction and, more explicitly, exploring the quintessential ability of interruption. We introduce a novel model design, namely listening-while-speaking language model (LSLM), an end-to-end system equipped with both listening and speaking channels. Our LSLM employs a token-based decoder-only TTS for speech generation and a streaming self-supervised learning (SSL) encoder for real-time audio input. LSLM fuses both channels for autoregressive generation and detects turn-taking in real time. Three fusion strategies — early fusion, middle fusion, and late fusion — are explored, with middle fusion achieving an optimal balance between speech generation and real-time interaction. Two experimental settings, command-based FDM and voice-based FDM, demonstrate LSLM’s robustness to noise and sensitivity to diverse instructions. Our results highlight LSLM’s capability to achieve duplex communication with minimal impact on existing systems. This study aims to advance the development of interactive speech dialogue systems, enhancing their applicability in real-world contexts.
arxiv情報
著者 | Ziyang Ma,Yakun Song,Chenpeng Du,Jian Cong,Zhuo Chen,Yuping Wang,Yuxuan Wang,Xie Chen |
発行日 | 2024-08-05 16:47:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google