Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

要約

視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVSR)が堅牢性を高めます。
最近のAdvancesは大規模な言語モデル(LLMS)をAVSRに統合しますが、その高い計算コストは​​、リソースに制約のある設定での展開を妨げています。
To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs.
Llama-smopは、まばらに合った混合混合物(MOE)プロジェクターを組み込むことにより、強力なパフォーマンスを維持しながら、より小さなLLMを使用できます。
3つのSMOP構成を調査し、モダリティ固有のルーターと専門家を使用するLlama-Smop Dedr(Disjoint-Experts、Disjoint-Routers)がASR、VSR、およびAVSRタスクで優れたパフォーマンスを達成することを示します。
アブレーション研究は、専門家の活性化、スケーラビリティ、およびノイズの堅牢性におけるその有効性を確認します。

要約(オリジナル)

Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy environments by integrating visual cues. While recent advances integrate Large Language Models (LLMs) into AVSR, their high computational cost hinders deployment in resource-constrained settings. To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors, Llama-SMoP enables the use of smaller LLMs while maintaining strong performance. We explore three SMoP configurations and show that Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation studies confirm its effectiveness in expert activation, scalability, and noise robustness.

arxiv情報

著者 Umberto Cappellazzo,Minsu Kim,Stavros Petridis,Daniele Falavigna,Alessio Brutti
発行日 2025-05-21 14:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク