EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models

要約

マルチモーダルの大規模な言語モデルは、複雑な推論タスクで強力なパフォーマンスを示していますが、展開中のモデルの複雑さ、特にリソース制限デバイスの複雑さに関連する重要な課題をもたらします。
このホワイトペーパーでは、マルチモーダル推論の効率を高めるために、大きな視覚言語モデルの自動剪定方法を提案します。
従来の方法は、元のモデルのトレーニングデータに依存して、さまざまなネットワークコンポーネントの適切な剪定比を選択します。
ただし、これらの方法は、Webスケールのトレーニングコーパスによって引き起こされる手頃な検索コストのため、大きなビジョン言語モデルでは非現実的です。
対照的に、私たちのアプローチは、モデルの精度を維持しながら未知のトレーニングデータの一般化能力を最大化することにより、目的のプルーニングポリシーを検索するために少数のサンプルを活用して、大規模な視覚言語モデルの精度と効率の最適なトレードオフの達成を可能にします。
具体的には、構造リスク最小化原則を使用して、剪定戦略の一般化ギャップを策定します。
タスクのパフォーマンスと一般化機能の両方に基づいて、特定の検索スペース内の最適な剪定ポリシーを繰り返し検索し、ビジョンプロジェクターを最適化して、パフォーマンスの上限で検索スペースを進化させます。
ScienceQA、Vizwiz、MM-Vet、およびLlava-Benchデータセットに関する広範な実験を行い、視覚的な質問に応答するタスクを行います。
剪定ポリシー検索に64個のサンプルのみを使用して、EfficientLlavaはScienceQAで83.05%の精度を達成し、Llava-V1.5-7Bの密なモデルと比較して$ 1.8のスピードアップを達成します。

要約(オリジナル)

While multimodal large language models demonstrate strong performance in complex reasoning tasks, they pose significant challenges related to model complexity during deployment, especially for resource-limited devices. In this paper, we propose an automatic pruning method for large vision-language models to enhance the efficiency of multimodal reasoning. Conventional methods rely on the training data of the original model to select the proper pruning ratio for different network components. However, these methods are impractical for large vision-language models due to the unaffordable search costs caused by web-scale training corpus. In contrast, our approach only leverages a small number of samples to search for the desired pruning policy by maximizing its generalization ability on unknown training data while maintaining the model accuracy, which enables the achievement of an optimal trade-off between accuracy and efficiency for large visual language models. Specifically, we formulate the generalization gap of the pruning strategy using the structural risk minimization principle. Based on both task performance and generalization capability, we iteratively search for the optimal pruning policy within a given search space and optimize the vision projector to evolve the search space with higher upper bound of performance. We conduct extensive experiments on the ScienceQA, Vizwiz, MM-vet, and LLaVA-Bench datasets for the task of visual question answering. Using only 64 samples for pruning policy search, EfficientLLaVA achieves an accuracy of 83.05% on ScienceQA, along with a $\times$ 1.8 speedup compared to the dense LLaVA-v1.5-7B model.

arxiv情報

著者 Yinan Liang,Ziwei Wang,Xiuwei Xu,Jie Zhou,Jiwen Lu
発行日 2025-03-19 16:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク