要約
大規模言語モデル (LLM) の最近の進歩は、自然言語処理の分野に革命をもたらし、その範囲をマルチモーダルな認識と生成に徐々に広げています。
ただし、リスニング機能を LLM に効果的に統合するには、特にさまざまなコンテキストにわたる一般化と複雑な聴覚タスクの実行に関して、重大な課題が生じます。
この研究では、デュアル エンコーダーを備えた堅牢で適応性のある音声大規模言語モデルである WavLLM と、2 段階のカリキュラム学習アプローチによって最適化されたプロンプト対応 LoRA 重みアダプターを紹介します。
デュアル エンコーダを活用して、さまざまな種類の音声情報を分離し、Whisper エンコーダを利用して音声の意味内容を処理し、WavLM エンコーダを利用して話者のアイデンティティの固有の特徴をキャプチャします。
カリキュラム学習フレームワーク内で、WavLLM はまず、混合された初歩的な単一タスクを最適化することで基礎的な機能を構築し、続いて初歩的なタスクの組み合わせなど、より複雑なタスクに関する高度なマルチタスク トレーニングを行います。
さまざまなタスクや指示への柔軟性と順守を強化するために、プロンプト対応 LoRA ウェイト アダプターが 2 番目の高度なマルチタスク トレーニング ステージに導入されます。
提案されたモデルは、ASR、ST、SV、ER などのタスクを含む普遍的な音声ベンチマークで検証され、さらに SQA 用の Gaokao 英語聴解セットや音声思考連鎖 (CoT) 評価セットなどの特殊なデータセットにも適用されます。
実験では、提案されたモデルが同じモデルサイズでさまざまな音声タスクにわたって最先端のパフォーマンスを達成し、CoT アプローチを使用して複雑なタスクを実行する際の堅牢な一般化機能を示していることが実証されています。
さらに、私たちのモデルは、特別なトレーニングなしで Gaokao タスクを正常に完了します。
コード、モデル、オーディオ、および Gaokao 評価セットには、\url{aka.ms/wavllm} からアクセスできます。
要約(オリジナル)
The recent advancements in large language models (LLMs) have revolutionized the field of natural language processing, progressively broadening their scope to multimodal perception and generation. However, effectively integrating listening capabilities into LLMs poses significant challenges, particularly with respect to generalizing across varied contexts and executing complex auditory tasks. In this work, we introduce WavLLM, a robust and adaptive speech large language model with dual encoders, and a prompt-aware LoRA weight adapter, optimized by a two-stage curriculum learning approach. Leveraging dual encoders, we decouple different types of speech information, utilizing a Whisper encoder to process the semantic content of speech, and a WavLM encoder to capture the unique characteristics of the speaker’s identity. Within the curriculum learning framework, WavLLM first builds its foundational capabilities by optimizing on mixed elementary single tasks, followed by advanced multi-task training on more complex tasks such as combinations of the elementary tasks. To enhance the flexibility and adherence to different tasks and instructions, a prompt-aware LoRA weight adapter is introduced in the second advanced multi-task training stage. We validate the proposed model on universal speech benchmarks including tasks such as ASR, ST, SV, ER, and also apply it to specialized datasets like Gaokao English listening comprehension set for SQA, and speech Chain-of-Thought (CoT) evaluation set. Experiments demonstrate that the proposed model achieves state-of-the-art performance across a range of speech tasks on the same model size, exhibiting robust generalization capabilities in executing complex tasks using CoT approach. Furthermore, our model successfully completes Gaokao tasks without specialized training. The codes, models, audio, and Gaokao evaluation set can be accessed at \url{aka.ms/wavllm}.
arxiv情報
著者 | Shujie Hu,Long Zhou,Shujie Liu,Sanyuan Chen,Lingwei Meng,Hongkun Hao,Jing Pan,Xunying Liu,Jinyu Li,Sunit Sivasankaran,Linquan Liu,Furu Wei |
発行日 | 2024-08-14 12:42:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google