TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

要約

高度なマルチモデル学習の時代において、GPT-4V などのマルチモーダル大規模言語モデル (MLLM) は、言語要素と視覚要素の橋渡しに向けて目覚ましい進歩を遂げました。
ただし、クローズドソースの性質とかなりの計算需要により、汎用的な使用と変更には顕著な課題が生じます。
ここで、LLaVA や MiniGPT-4 などのオープンソース MLLM が登場し、さまざまなタスクにわたって画期的な成果をもたらします。
これらの成果にもかかわらず、LLaVA-v1.5-13B などのこれらのモデルは大量のリソースを必要とするため、計算効率は未解決の問題のままです。
これらの問題に対処するために、印象的なパフォーマンスと一般的な計算能力を組み合わせた新しいモデルである TinyGPT-V を紹介します。
トレーニングには 24G GPU、推論には 8G GPU または CPU のみが必要という点で際立っています。
Phi-2 に基づいて構築された TinyGPT-V は、効果的な言語バックボーンと BLIP-2 または CLIP の事前トレーニング済みビジョン モジュールを結合します。
TinyGPT-V の 2.8B パラメータは、8G のさまざまなデバイスでのローカル展開や推論タスクに適した独自の量子化プロセスを受けることができます。
私たちの取り組みは、費用対効果が高く、効率的で高性能な MLLM を設計するためのさらなる開発を促進し、現実世界の幅広いシナリオでの適用可能性を拡大します。
さらに、この論文は、小さなバックボーンを介したマルチモーダル大規模言語モデルの新しいパラダイムを提案しました。
コードとトレーニングの重みは、それぞれ https://github.com/DLYuanGod/TinyGPT-V と https://huggingface.co/Tyrannosaurus/TinyGPT-V に配置されています。

要約(オリジナル)

In the era of advanced multimodel learning, multimodal large language models (MLLMs) such as GPT-4V have made remarkable strides towards bridging language and visual elements. However, the closed-source nature and considerable computational demand present notable challenges for universal usage and modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come in, presenting groundbreaking achievements across tasks. Despite these accomplishments, computational efficiency remains an unresolved issue, as these models, like LLaVA-v1.5-13B, require substantial resources. Addressing these issues, we introduce TinyGPT-V, a new-wave model marrying impressive performance with commonplace computational capacity. It stands out by requiring merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision modules from BLIP-2 or CLIP. TinyGPT-V’s 2.8B parameters can undergo a unique quantisation process, suitable for local deployment and inference tasks on 8G various devices. Our work fosters further developments for designing cost-effective, efficient, and high-performing MLLMs, expanding their applicability in a broad array of real-world scenarios. Furthermore this paper proposed a new paradigm of Multimodal Large Language Model via small backbones. Our code and training weights are placed at: https://github.com/DLYuanGod/TinyGPT-V and https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.

arxiv情報

著者 Zhengqing Yuan,Zhaoxu Li,Lichao Sun
発行日 2023-12-28 07:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク