BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation

要約

最近のエンドツーエンドのアプローチは、大規模言語モデル (LLM) を音声入力に拡張する点で有望であることが示されていますが、アライメントの品質を直接評価して最適化する際には限界に直面しており、音声とテキストの長さが一致しないため、きめ細かいアライメントを実現できません。
知識蒸留による言語音声事前トレーニングのブートストラップのための新しいアプローチである BLSP-KD を紹介します。これは、2 つの主要な技術を通じてこれらの制限に対処します。
まず、知識の蒸留を使用して、音声入力とテキスト入力に対する LLM の次トークン予測分布間の乖離を最小限に抑えることで、音声とテキストの位置合わせを最適化します。
第 2 に、継続的統合と発射戦略を採用して音声をテキスト トークンと 1 対 1 に対応するトークンに分割し、きめ細かい調整を可能にします。
また、知識蒸留の下で音声入力の LLM 微調整をサポートする新しい適応方法である Partial LoRA (PLoRA) も紹介します。
定量的評価では、BLSP-KD が、同等の規模のパラメーターを備えた以前のエンドツーエンドのベースラインおよびカスケード システムを上回り、音声入力による LLM の一般的な命令追従機能を促進することが示されています。
このアプローチは、LLM を音声言語の対話に拡張す​​るための新しい可能性を提供します。

要約(オリジナル)

Recent end-to-end approaches have shown promise in extending large language models (LLMs) to speech inputs, but face limitations in directly assessing and optimizing alignment quality and fail to achieve fine-grained alignment due to speech-text length mismatch. We introduce BLSP-KD, a novel approach for Bootstrapping Language-Speech Pretraining via Knowledge Distillation, which addresses these limitations through two key techniques. First, it optimizes speech-text alignment by minimizing the divergence between the LLM’s next-token prediction distributions for speech and text inputs using knowledge distillation. Second, it employs a continuous-integrate-andfire strategy to segment speech into tokens that correspond one-to-one with text tokens, enabling fine-grained alignment. We also introduce Partial LoRA (PLoRA), a new adaptation method supporting LLM finetuning for speech inputs under knowledge distillation. Quantitative evaluation shows that BLSP-KD outperforms previous end-to-end baselines and cascaded systems with comparable scale of parameters, facilitating general instruction-following capabilities for LLMs with speech inputs. This approach provides new possibilities for extending LLMs to spoken language interactions.

arxiv情報

著者 Chen Wang,Minpeng Liao,Zhongqiang Huang,Jiajun Zhang
発行日 2024-05-29 12:32:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク