Contrastive Learning for Task-Independent SpeechLLM-Pretraining

要約

大規模な言語モデル(LLM)は自然言語処理に優れていますが、これらのLLMを音声処理タスクに効率的に適応させることは簡単ではありません。
直接タスク固有の微調整は、リスク、データ要件、および計算コストに過度に適合することにより制限されます。
これらの課題に対処するために、スケーラブルな2段階のトレーニングアプローチを提案します。(1)すべてのレイヤーにテキストと音声表現を整列させるための対照学習を使用したタスクに依存しない音声前段階を提案し、次に(2)最小限のデータを必要とするタスク固有の微調整段階を続けます。
このアプローチは、従来のASR事前トレーニングを上回り、モデルが音声翻訳と質問の回答に特化したモデルを上回り、タスク固有のデータの10%のみで訓練されています。

要約(オリジナル)

Large language models (LLMs) excel in natural language processing but adapting these LLMs to speech processing tasks efficiently is not straightforward. Direct task-specific fine-tuning is limited by overfitting risks, data requirements, and computational costs. To address these challenges, we propose a scalable, two-stage training approach: (1) A task-independent speech pretraining stage using contrastive learning to align text and speech representations over all layers, followed by (2) a task-specific fine-tuning stage requiring minimal data. This approach outperforms traditional ASR pretraining and enables the model to surpass models specialized on speech translation and question answering while being trained on only 10% of the task-specific data.

arxiv情報

著者 Maike Züfle,Jan Niehues
発行日 2025-05-30 16:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク