A Full-duplex Speech Dialogue Scheme Based On Large Language Models

要約

我々は、全二重方式で動作し、シームレスな対話を可能にする生成対話システムを紹介します。
これは、知覚モジュール、運動機能モジュール、および 2 つの状態を持つ単純な有限状態マシン (ニューラル FSM と呼ばれる) の概念を認識するように注意深く調整された大規模言語モデル (LLM) に基づいています。
知覚モジュールと運動機能モジュールは連携して動作し、システムがユーザーの話し声を同時に聞くことができるようになります。
LLM は、問い合わせ応答用のテキスト トークンを生成し、制御トークンをニューラル FSM に発行することによって、ユーザーへの応答を開始するか、待機するか、中断するかを自律的に決定します。
LLM のこれらすべてのタスクは、対話のシリアル化されたビューでの次のトークンの予測としてリアルタイムで実行されます。
実際のインタラクションをシミュレートした自動品質評価において、提案されたシステムは、LLM ベースの半二重対話システムと比較して、平均会話応答遅延を 3 倍以上短縮し、評価されたインタラクションの 50% 以上で 500 ミリ秒未満以内に応答します。
わずか 80 億のパラメータで LLM を実行する当社のシステムは、音声ベースの対話用に市販されている最良の LLM よりも 8% 高い割り込み精度を示します。

要約(オリジナル)

We present a generative dialogue system capable of operating in a full-duplex manner, allowing for seamless interaction. It is based on a large language model (LLM) carefully aligned to be aware of a perception module, a motor function module, and the concept of a simple finite state machine (called neural FSM) with two states. The perception and motor function modules operate in tandem, allowing the system to speak and listen to the user simultaneously. The LLM generates textual tokens for inquiry responses and makes autonomous decisions to start responding to, wait for, or interrupt the user by emitting control tokens to the neural FSM. All these tasks of the LLM are carried out as next token prediction on a serialized view of the dialogue in real-time. In automatic quality evaluations simulating real-life interaction, the proposed system reduces the average conversation response latency by more than threefold compared with LLM-based half-duplex dialogue systems while responding within less than 500 milliseconds in more than 50% of evaluated interactions. Running an LLM with only 8 billion parameters, our system exhibits an 8% higher interruption precision rate than the best available commercial LLM for voice-based dialogue.

arxiv情報

著者 Peng Wang,Songshuo Lu,Yaohua Tang,Sijie Yan,Wei Xia,Yuanjun Xiong
発行日 2024-10-29 17:44:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク