Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

要約

大規模言語モデル (LLM) の急速な発展により、膨大なインテリジェントなアプリケーションがもたらされました。
特に、GPT-4o の優れた双方向音声インタラクション機能は、ユーザーに印象的な体験をもたらしました。
研究者らは最近、この方向でユーザーとエージェントの音声対音声会話を実現できるいくつかのマルチモーダル LLM を提案しました。
この論文では、Freeze-Omni と呼ばれる新しい音声テキスト マルチモーダル LLM アーキテクチャを提案します。
私たちの主な貢献は、トレーニング プロセス全体を通じて LLM のパラメータを固定したまま、音声入力および出力モダリティをテキスト LLM に簡単に接続できることです。
私たちは、音声の入力と出力の両方をモデル化するための 3 段階のトレーニング戦略を設計し、Freeze-Omni がテキストと音声のペアのデータ (ASR や TTS データなど) とわずか 60,000 のマルチラウンドを使用して音声対音声の会話能力を取得できるようにします。
8 GPU 上のテキスト Q&A データ。
さらに、低遅延のエンドツーエンドの音声応答を実現しながら、音声モダリティにおける Freeze-Omni のインテリジェンスが、バックボーン LLM のテキスト モダリティのインテリジェンスと比較して同じレベルであることを効果的に保証できます。
さらに、マルチタスク トレーニングを通じて二重対話能力を達成する方法も設計し、Freeze-Omni にユーザーとエージェント間のより自然なスタイルの対話能力を提供します。
要約すると、Freeze-Omni は、フリーズ LLM の条件下でマルチモーダル LLM に基づいて音声対話を実行し、限られたデータとトレーニング リソースによって引き起こされる壊滅的な忘却の問題を回避する大きな可能性を秘めています。

要約(オリジナル)

Rapidly developing large language models (LLMs) have brought tremendous intelligent applications. Especially, the GPT-4o’s excellent duplex speech interaction ability has brought impressive experience to users. Researchers have recently proposed several multi-modal LLMs in this direction that can achieve user-agent speech-to-speech conversations. This paper proposes a novel speech-text multimodal LLM architecture called Freeze-Omni. Our main contribution is that the speech input and output modalities can be easily connected to a textual LLM while keeping the LLM’s parameters frozen throughout the training process. We design a three-stage training strategy for modeling both the speech input and output, enabling Freeze-Omni to obtain speech-to-speech conversation ability using text-speech paired data (such as ASR and TTS data) and only 60,000 multi-round text Q&A data on 8 GPUs. Moreover, we can effectively ensure that the intelligence of the Freeze-Omni in the speech modality is at the same level compared with that in the text modality of its backbone LLM, while achieving low latency end-to-end spoken response. In addition, we also designed a method to achieve duplex dialogue ability through multi-task training, giving Freeze-Omni a more natural style of dialogue ability between users and agents. In summary, Freeze-Omni holds great potential to conduct speech-to-speech dialogue based on a multimodal LLM under the condition of a frozen LLM, avoiding the catastrophic forgetting problem caused by limited data and training resources.

arxiv情報

著者 Xiong Wang,Yangze Li,Chaoyou Fu,Yunhang Shen,Lei Xie,Ke Li,Xing Sun,Long Ma
発行日 2024-11-21 09:19:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク