How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

要約

このレポートでは、マルチモーダル理解におけるオープンソースと独自の商用モデル間の機能ギャップを埋めるオープンソース マルチモーダル大規模言語モデル (MLLM) である InternVL 1.5 を紹介します。
3 つの簡単な改善点を紹介します。 (1) Strong Vision Encoder: 大規模なビジョン基盤モデルである InternViT-6B の継続的な学習戦略を検討し、その視覚的理解機能を強化し、異なる LLM に転送して再利用できるようにしました。

(2) 動的高解像度: 入力画像のアスペクト比と解像度に応じて、画像を 448$\times$448 ピクセルの 1 ~ 40 の範囲のタイルに分割し、最大 4K 解像度の入力をサポートします。
(3) 高品質のバイリンガル データセット: 一般的なシーン、文書画像をカバーする高品質のバイリンガル データセットを慎重に収集し、英語と中国語の質問と回答のペアで注釈を付け、OCR および中国語関連のタスクのパフォーマンスを大幅に向上させました。
私たちは、一連のベンチマークと比較研究を通じて InternVL 1.5 を評価します。
オープンソース モデルと独自モデルの両方と比較して、InternVL 1.5 は競争力のあるパフォーマンスを示し、18 ベンチマーク中 8 ベンチマークで最先端の結果を達成しました。
コードは https://github.com/OpenGVLab/InternVL でリリースされています。

要約(オリジナル)

In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model — InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448$\times$448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.

arxiv情報

著者 Zhe Chen,Weiyun Wang,Hao Tian,Shenglong Ye,Zhangwei Gao,Erfei Cui,Wenwen Tong,Kongzhi Hu,Jiapeng Luo,Zheng Ma,Ji Ma,Jiaqi Wang,Xiaoyi Dong,Hang Yan,Hewei Guo,Conghui He,Zhenjiang Jin,Chao Xu,Bin Wang,Xingjian Wei,Wei Li,Wenjian Zhang,Lewei Lu,Xizhou Zhu,Tong Lu,Dahua Lin,Yu Qiao
発行日 2024-04-25 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク