Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification

要約

ラベルのないデータに対して自己教師あり目標を使用して大規模な基礎モデルをトレーニングし、その後、下流のタスクを微調整することが標準的な手順として浮上しています。
残念ながら、このアプローチの有効性は、微調整コンピューティングの制限と、ラベル付きダウンストリーム データの不足の両方によって制約を受けることがよくあります。
我々は、マルチモーダル アテンション マージング (MAM) を紹介します。これは、ゼロショット パラダイムを採用し、高リソース モダリティ、テキスト、画像に根ざしたモデルのアテンション マトリックスから、リソースに制約のある領域、音声、オーディオのアテンション マトリックスへの直接的な知識の伝達を容易にする試みです。
MAM は、自動音声認識 (ASR) モデルの相対単語誤り率 (WER) を最大 6.70% 削減し、音声イベント分類 (AEC) モデルの相対分類誤差を 10.63% 削減します。
一部のデータ/コンピューティングが利用可能な場合、注目マトリックスを結合するためのデータ駆動型アプローチである Learnable-MAM を提案します。その結果、微調整と比較して、ASR の WER がさらに 2.90% 相対的に減少し、AEC が 18.42% 相対的に減少しました。

要約(オリジナル)

Training large foundation models using self-supervised objectives on unlabeled data, followed by fine-tuning on downstream tasks, has emerged as a standard procedure. Unfortunately, the efficacy of this approach is often constrained by both limited fine-tuning compute and scarcity in labeled downstream data. We introduce Multimodal Attention Merging (MAM), an attempt that facilitates direct knowledge transfer from attention matrices of models rooted in high resource modalities, text and images, to those in resource-constrained domains, speech and audio, employing a zero-shot paradigm. MAM reduces the relative Word Error Rate (WER) of an Automatic Speech Recognition (ASR) model by up to 6.70%, and relative classification error of an Audio Event Classification (AEC) model by 10.63%. In cases where some data/compute is available, we present Learnable-MAM, a data-driven approach to merging attention matrices, resulting in a further 2.90% relative reduction in WER for ASR and 18.42% relative reduction in AEC compared to fine-tuning.

arxiv情報

著者 Anirudh S. Sundar,Chao-Han Huck Yang,David M. Chan,Shalini Ghosh,Venkatesh Ravichandran,Phani Sankar Nidadavolu
発行日 2024-02-09 15:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク