BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing

要約

大規模言語モデル (LLM) の出現により、その優れた言語機能を音声に拡張することに大きな関心が集まっています。
しかし、音声とテキストの間のモダリティの調整は依然として未解決の問題のままです。
現在のソリューションは 2 つの戦略に分類できます。
1 つは、個別にトレーニングされた音声認識システムの出力 (トークンまたは状態) が LLM の入力として使用されるカスケード アプローチです。これにより、音声とテキストの整合性をモデリングする際の LLM の可能性が制限されます。
もう 1 つは音声指示データに依存するエンドツーエンドのアプローチであり、大量に収集するのは非常に困難です。
この論文では、これらの問題に対処し、継続書き込みの動作調整を通じて言語と音声の事前トレーニングをブートストラップする BLSP アプローチを提案します。
これは、フリーズされた音声エンコーダと LLM の間の軽量モダリティ アダプターを学習することで実現され、入力のモダリティ (音声セグメントまたはそのトランスクリプト) に関係なく、LLM が同じ生成動作を示すようにします。
トレーニングのプロセスは 2 つのステップに分けることができます。
最初のステップでは、LLM に音声トランスクリプトをプレフィックスとして含むテキストを生成し、テキストの継続を取得するように促します。
2 番目のステップでは、これらの継続が監視信号として使用され、モダリティ アダプターをエンドツーエンドでトレーニングします。
この単純なプロセスにより、LLM の機能が音声に拡張され、ゼロショットの言語をまたがるシナリオであっても、音声認識、音声翻訳、話し言葉の理解、および音声会話が可能になることを実証します。

要約(オリジナル)

The emergence of large language models (LLMs) has sparked significant interest in extending their remarkable language capabilities to speech. However, modality alignment between speech and text still remains an open problem. Current solutions can be categorized into two strategies. One is a cascaded approach where outputs (tokens or states) of a separately trained speech recognition system are used as inputs for LLMs, which limits their potential in modeling alignment between speech and text. The other is an end-to-end approach that relies on speech instruction data, which is very difficult to collect in large quantities. In this paper, we address these issues and propose the BLSP approach that Bootstraps Language-Speech Pre-training via behavior alignment of continuation writing. We achieve this by learning a lightweight modality adapter between a frozen speech encoder and an LLM, ensuring that the LLM exhibits the same generation behavior regardless of the modality of input: a speech segment or its transcript. The training process can be divided into two steps. The first step prompts an LLM to generate texts with speech transcripts as prefixes, obtaining text continuations. In the second step, these continuations are used as supervised signals to train the modality adapter in an end-to-end manner. We demonstrate that this straightforward process can extend the capabilities of LLMs to speech, enabling speech recognition, speech translation, spoken language understanding, and speech conversation, even in zero-shot cross-lingual scenarios.

arxiv情報

著者 Chen Wang,Minpeng Liao,Zhongqiang Huang,Jinliang Lu,Junhong Wu,Yuchen Liu,Chengqing Zong,Jiajun Zhang
発行日 2024-05-28 14:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク