HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

要約

最近の進歩により、マルチモーダル大規模言語モデル (MLLM) をスケールアップすると、下流のマルチモーダル タスクのパフォーマンスが効果的に向上することが示されています。
一般的な MLLM パラダイムである \emph{e.g.}、LLaVA は、 \emph{static} ビジョン言語マッパーを使用して視覚的特徴をテキストのようなトークンに変換することで、 \emph{static} LLM が視覚情報を理解する能力を開発できるようにします。
視覚的な指示のチューニング。
同じパラメータを共有する \emph{静的} 調整戦略~\footnote{静的調整とは、静的パラメータを使用してトレーニングされたモデルを指します。} は有望ではありますが、異なる下流のマルチモーダル タスク全体でパフォーマンスを制約する可能性があります。
これを考慮して、動的視覚専門家と言語専門家とそれぞれ連携して、プロジェクターと LLM パラメーターの適応調整を含む HyperLLaVA を導入します。
これらの専門家は HyperNetworks から派生したもので、視覚と言語のガイダンスを通じて適応パラメーター シフトを生成し、2 段階のトレーニングで動的なプロジェクターと LLM モデリングを可能にします。
当社の実験では、当社のソリューションが、MME、MMBench、SEED-Bench、LLaVA-Bench などの既存の MLLM ベンチマークで LLaVA を大幅に上回っていることが実証されています。
~\footnote{私たちのプロジェクトはリンク https://github.com/DCDmllm/HyperLLaVA} から入手できます。

要約(オリジナル)

Recent advancements indicate that scaling up Multimodal Large Language Models (MLLMs) effectively enhances performance on downstream multimodal tasks. The prevailing MLLM paradigm, \emph{e.g.}, LLaVA, transforms visual features into text-like tokens using a \emph{static} vision-language mapper, thereby enabling \emph{static} LLMs to develop the capability to comprehend visual information through visual instruction tuning. Although promising, the \emph{static} tuning strategy~\footnote{The static tuning refers to the trained model with static parameters.} that shares the same parameters may constrain performance across different downstream multimodal tasks. In light of this, we introduce HyperLLaVA, which involves adaptive tuning of the projector and LLM parameters, in conjunction with a dynamic visual expert and language expert, respectively. These experts are derived from HyperNetworks, which generates adaptive parameter shifts through visual and language guidance, enabling dynamic projector and LLM modeling in two-stage training. Our experiments demonstrate that our solution significantly surpasses LLaVA on existing MLLM benchmarks, including MME, MMBench, SEED-Bench, and LLaVA-Bench. ~\footnote{Our project is available on the link https://github.com/DCDmllm/HyperLLaVA}.

arxiv情報

著者 Wenqiao Zhang,Tianwei Lin,Jiang Liu,Fangxun Shu,Haoyuan Li,Lei Zhang,He Wanggui,Hao Zhou,Zheqi Lv,Hao Jiang,Juncheng Li,Siliang Tang,Yueting Zhuang
発行日 2024-03-20 09:42:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク