MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

要約

大規模言語モデル (LLM) の急速な進歩により、自然言語処理機能が大幅に強化され、テキストと一緒に音声および音声入力を処理および理解する AudioLLM の開発が容易になりました。
既存の AudioLLM は通常、事前トレーニングされたオーディオ エンコーダと事前トレーニングされた LLM を組み合わせ、その後、特定のオーディオ タスクに合わせて微調整されます。
ただし、事前トレーニングされたオーディオ エンコーダーには、新しいタスクやデータセットの特徴をキャプチャする能力が制限されています。
これに対処するために、「弱い」エンコーダ (MoWE) の混合を AudioLLM フレームワークに組み込むことを提案します。
MoWE は、モデル サイズを大幅に増やすことなく特徴抽出を強化するために、オーディオ入力に基づいて選択的にアクティブ化される比較的軽量のエンコーダーのプールでベース エンコーダーを補完します。
私たちの実証結果は、MoWE がマルチタスクのパフォーマンスを効果的に向上させ、AudioLLM の適用可能性をより多様なオーディオ タスクに広げることを示しています。

要約(オリジナル)

The rapid advancements in large language models (LLMs) have significantly enhanced natural language processing capabilities, facilitating the development of AudioLLMs that process and understand speech and audio inputs alongside text. Existing AudioLLMs typically combine a pre-trained audio encoder with a pre-trained LLM, which are subsequently finetuned on specific audio tasks. However, the pre-trained audio encoder has constrained capacity to capture features for new tasks and datasets. To address this, we propose to incorporate mixtures of `weak’ encoders (MoWE) into the AudioLLM framework. MoWE supplements a base encoder with a pool of relatively light weight encoders, selectively activated based on the audio input to enhance feature extraction without significantly increasing model size. Our empirical results demonstrate that MoWE effectively improves multi-task performance, broadening the applicability of AudioLLMs to more diverse audio tasks.

arxiv情報

著者 Wenyu Zhang,Shuo Sun,Bin Wang,Xunlong Zou,Zhuohan Liu,Yingxu He,Geyu Lin,Nancy F. Chen,Ai Ti Aw
発行日 2024-09-10 16:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク