Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、GPT-4 に似た重要なマルチモーダル生成機能が実現されました。
これらのモデルは主に視覚情報を言語表現空間にマッピングし、LLM の膨大な知識と強力なテキスト生成能力を活用して、マルチモーダルな命令に従う応答を生成します。
この方法は、視覚言語の理解に LLM を採用しているため、視覚のための LLM と呼ぶことができますが、これらの MLLM は、視覚知識を活用して LLM の全体的な能力を強化する可能性を無視していることがわかります。これは、視覚強化 LLM と言い換えることもできます。
このペーパーでは、LLM でのマルチモーダルな知識の保存と共有を強化することで LLM を強化することを目的とした、MKS2 と呼ばれるアプローチを提案します。
具体的には、LLM の内部ブロックに統合され、オープンワールドの視覚情報を効率的に保存するように設計されたコンポーネントであるモジュラー ビジュアル メモリを導入します。
さらに、生成中にマルチモーダル知識コラボレーションを呼び出すための、LLM のソフト Mixtures-of-Multimodal Experts アーキテクチャを紹介します。
私たちの包括的な実験は、MKS2 が物理的または常識的知識を必要とする状況において LLM の推論能力を大幅に強化することを実証しています。
また、マルチモーダルベンチマークでも競争力のある結果をもたらします。

要約(オリジナル)

Recent advancements in multimodal large language models (MLLMs) have achieved significant multimodal generation capabilities, akin to GPT-4. These models predominantly map visual information into language representation space, leveraging the vast knowledge and powerful text generation abilities of LLMs to produce multimodal instruction-following responses. We could term this method as LLMs for Vision because of its employing LLMs for visual-language understanding, yet observe that these MLLMs neglect the potential of harnessing visual knowledge to enhance overall capabilities of LLMs, which could be regraded as Vision Enhancing LLMs. In this paper, we propose an approach called MKS2, aimed at enhancing LLMs through empowering Multimodal Knowledge Storage and Sharing in LLMs. Specifically, we introduce the Modular Visual Memory, a component integrated into the internal blocks of LLMs, designed to store open-world visual information efficiently. Additionally, we present a soft Mixtures-of-Multimodal Experts architecture in LLMs to invoke multimodal knowledge collaboration during generation. Our comprehensive experiments demonstrate that MKS2 substantially augments the reasoning capabilities of LLMs in contexts necessitating physical or commonsense knowledge. It also delivers competitive results on multimodal benchmarks.

arxiv情報

著者 Yunxin Li,Baotian Hu,Wei Wang,Xiaochun Cao,Min Zhang
発行日 2023-11-27 12:29:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク