要約
このレポートでは、マルチモーダル理解におけるオープンソースと独自の商用モデル間の機能ギャップを埋めるオープンソース マルチモーダル大規模言語モデル (MLLM) である InternVL 1.5 を紹介します。
3 つの簡単な改善点を紹介します。 (1) Strong Vision Encoder: 大規模なビジョン基盤モデルである InternViT-6B の継続的な学習戦略を検討し、その視覚的理解機能を強化し、異なる LLM に転送して再利用できるようにしました。
。
(2) 動的高解像度: 入力画像のアスペクト比と解像度に応じて、画像を 448$\times$448 ピクセルの 1 ~ 40 の範囲のタイルに分割し、最大 4K 解像度の入力をサポートします。
(3) 高品質のバイリンガル データセット: 一般的なシーン、文書画像をカバーする高品質のバイリンガル データセットを慎重に収集し、英語と中国語の質問と回答のペアで注釈を付け、OCR および中国語関連のタスクのパフォーマンスを大幅に向上させました。
私たちは、一連のベンチマークと比較研究を通じて InternVL 1.5 を評価します。
オープンソース モデルと独自モデルの両方と比較して、InternVL 1.5 は競争力のあるパフォーマンスを示し、18 ベンチマーク中 8 ベンチマークで最先端の結果を達成しました。
コードは https://github.com/OpenGVLab/InternVL でリリースされています。
要約(オリジナル)
In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model — InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448$\times$448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.
arxiv情報
著者 | Zhe Chen,Weiyun Wang,Hao Tian,Shenglong Ye,Zhangwei Gao,Erfei Cui,Wenwen Tong,Kongzhi Hu,Jiapeng Luo,Zheng Ma,Ji Ma,Jiaqi Wang,Xiaoyi Dong,Hang Yan,Hewei Guo,Conghui He,Zhenjiang Jin,Chao Xu,Bin Wang,Xingjian Wei,Wei Li,Wenjian Zhang,Lewei Lu,Xizhou Zhu,Tong Lu,Dahua Lin,Yu Qiao |
発行日 | 2024-04-25 17:59:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google