要約
マルチモーダル大規模言語モデル (MLLM) は、幅広い領域にわたる視覚言語タスクにおいて優れたパフォーマンスを実証しています。
ただし、モデルの規模が大きく、それに伴う計算コストが高いため、消費者グレードの GPU やエッジ デバイスで MLLM をトレーニングおよび展開する場合に大きな課題が生じ、その広範なアプリケーションが妨げられています。
この作業では、1B から 4B までのパラメータを持つ一連の MLLM である Mini-InternVL を紹介します。これは、わずか 5% のパラメータで 90% のパフォーマンスを達成します。
この効率と有効性の大幅な向上により、モデルがよりアクセスしやすくなり、現実世界のさまざまなシナリオに適用できるようになります。
当社モデルの導入をさらに促進するために、当社は Mini-InternVL 用の統合適応フレームワークを開発します。これにより、当社のモデルは、自動運転、医療画像、リモート センシングなどの下流タスクで特殊なモデルを転送し、それを上回るパフォーマンスを発揮できるようになります。
私たちは、この研究が効率的かつ効果的な MLLM の開発を進めるための貴重な洞察とリソースを提供できると信じています。
コードは https://github.com/OpenGVLab/InternVL で入手できます。
要約(オリジナル)
Multimodal large language models (MLLMs) have demonstrated impressive performance in vision-language tasks across a broad spectrum of domains. However, the large model scale and associated high computational costs pose significant challenges for training and deploying MLLMs on consumer-grade GPUs or edge devices, thereby hindering their widespread application. In this work, we introduce Mini-InternVL, a series of MLLMs with parameters ranging from 1B to 4B, which achieves 90% of the performance with only 5% of the parameters. This significant improvement in efficiency and effectiveness makes our models more accessible and applicable in various real-world scenarios. To further promote the adoption of our models, we develop a unified adaptation framework for Mini-InternVL, which enables our models to transfer and outperform specialized models in downstream tasks, including autonomous driving, medical images, and remote sensing. We believe that our study can provide valuable insights and resources to advance the development of efficient and effective MLLMs. Code is available at https://github.com/OpenGVLab/InternVL.
arxiv情報
著者 | Zhangwei Gao,Zhe Chen,Erfei Cui,Yiming Ren,Weiyun Wang,Jinguo Zhu,Hao Tian,Shenglong Ye,Junjun He,Xizhou Zhu,Lewei Lu,Tong Lu,Yu Qiao,Jifeng Dai,Wenhai Wang |
発行日 | 2024-10-22 08:09:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google