Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning

要約

パラメーター効率の高い微調整マルチモーダル大規模言語モデル (MLLM) には、きめ細かい詳細の理解を制限する高レベルの視覚機能への依存や、タスクの複雑さから生じるデータ競合など、重大な課題が存在します。
これらの問題に対処するために、Vision Cue Enhancement (VCE) と Dual Low-Rank Adaptation (Dual-LoRA) という 2 つの新しいアプローチを使用した効率的な微調整フレームワークを提案します。
VCE は、マルチレベルの視覚的キューを統合することでビジョン プロジェクターを強化し、きめの細かい視覚的特徴をキャプチャするモデルの能力を向上させます。
Dual-LoRA は、命令チューニングのためのデュアル低ランク構造を導入し、学習をスキルとタスクの空間に切り離して、多様なタスクにわたって正確な制御と効率的な適応を可能にします。
私たちの方法は実装を簡素化し、視覚的な理解を強化し、適応性を向上させます。
下流タスクと一般的なベンチマークの両方に関する実験により、提案したアプローチの有効性が実証されています。

要約(オリジナル)

Parameter-efficient fine-tuning multimodal large language models (MLLMs) presents significant challenges, including reliance on high-level visual features that limit fine-grained detail comprehension, and data conflicts that arise from task complexity. To address these issues, we propose an efficient fine-tuning framework with two novel approaches: Vision Cue Enhancement (VCE) and Dual Low-Rank Adaptation (Dual-LoRA). VCE enhances the vision projector by integrating multi-level visual cues, improving the model’s ability to capture fine-grained visual features. Dual-LoRA introduces a dual low-rank structure for instruction tuning, decoupling learning into skill and task spaces to enable precise control and efficient adaptation across diverse tasks. Our method simplifies implementation, enhances visual comprehension, and improves adaptability. Experiments on both downstream tasks and general benchmarks demonstrate the effectiveness of our proposed approach.

arxiv情報

著者 Pengkun Jiao,Bin Zhu,Jingjing Chen,Chong-Wah Ngo,Yu-Gang Jiang
発行日 2024-12-02 07:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク