要約
視覚エンコーダは視覚言語モデル(VLM)の基本的な構成要素であり、それぞれが事前に訓練された様々な視覚基盤モデルに由来する独自の強みを発揮する。これらのエンコーダの様々な能力を活用するために、最近の研究では1つのVLMに複数のエンコーダを組み込んでおり、計算コストが大幅に増加している。本論文では、MoVE-KD(Mixture-of-Visual-Encoder Knowledge Distillation)を紹介する。MoVE-KDは、複数の視覚エンコーダのユニークな能力を、単一の効率的なエンコーダモデルに抽出する新しいフレームワークである。具体的には、競合を緩和し、各教師エンコーダのユニークな特性を保持するために、低ランク適応(LoRA)と専門家の混合(MoEs)を採用し、入力特徴に基づいて専門知識を選択的に活性化し、適応性と効率の両方を向上させる。KDプロセスを規則化し、性能を向上させるために、我々は、異なる視覚エンコーダを適応的に重み付けし、複数の教師から包括的だが異なる特徴を複製する負担を軽減し、価値のある視覚的トークンを強調する、注意に基づく蒸留戦略を提案する。LLaVAやLLaVA-NeXTのような一般的なVLMに対する包括的な実験により、我々の手法の有効性を検証する。コードは公開される予定です。
要約(オリジナル)
Visual encoders are fundamental components in vision-language models (VLMs), each showcasing unique strengths derived from various pre-trained visual foundation models. To leverage the various capabilities of these encoders, recent studies incorporate multiple encoders within a single VLM, leading to a considerable increase in computational cost. In this paper, we present Mixture-of-Visual-Encoder Knowledge Distillation (MoVE-KD), a novel framework that distills the unique proficiencies of multiple vision encoders into a single, efficient encoder model. Specifically, to mitigate conflicts and retain the unique characteristics of each teacher encoder, we employ low-rank adaptation (LoRA) and mixture-of-experts (MoEs) to selectively activate specialized knowledge based on input features, enhancing both adaptability and efficiency. To regularize the KD process and enhance performance, we propose an attention-based distillation strategy that adaptively weighs the different visual encoders and emphasizes valuable visual tokens, reducing the burden of replicating comprehensive but distinct features from multiple teachers. Comprehensive experiments on popular VLMs, such as LLaVA and LLaVA-NeXT, validate the effectiveness of our method. The code will be released.
arxiv情報
著者 | Jiajun Cao,Yuan Zhang,Tao Huang,Ming Lu,Qizhe Zhang,Ruichuan An,Ningning MA,Shanghang Zhang |
発行日 | 2025-01-03 09:10:34+00:00 |
arxivサイト | arxiv_id(pdf) |