InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

要約

Large Vision-Language Model (LVLM) 分野は大幅な進歩を遂げていますが、解像度が限られているため、きめの細かいビジュアル コンテンツを理解する際の課題によってその進歩が妨げられてきました。
最近の取り組みは、LVLM の高解像度理解機能を強化することを目的としていますが、依然として約 1500 x 1500 ピクセルに制限されており、比較的狭い解像度範囲に制限されています。
この文書は、LVLM 解像度機能を最大 4K HD (3840 x 1600) 以上まで向上させるための画期的な研究である InternLM-XComposer2-4KHD について説明します。
同時に、すべてのシナリオで超高解像度が必要なわけではないことを考慮して、336 ピクセルから 4K 標準までの幅広い多様な解像度をサポートし、適用範囲を大幅に広げます。
具体的には、この研究は、自動パッチ構成による動的解像度という新しい拡張機能を導入することにより、パッチ分割パラダイムを前進させます。
トレーニング画像のアスペクト比を維持しながら、パッチ数を自動的に変更し、事前トレーニングされたビジョン トランスフォーマー (ViT) (336 x 336) に基づいてレイアウトを構成することで、336 ピクセルから 4K 標準までの動的なトレーニング解像度を実現します。
私たちの調査では、トレーニング解像度を 4K HD まで拡張することで、潜在的な改善の上限に達することなく、一貫したパフォーマンスの向上につながることが実証されています。
InternLM-XComposer2-4KHD は、16 ベンチマークのうち 10 項目で GPT-4V や Gemini Pro に匹敵する、あるいはそれを上回る優れた機能を示しています。
7B パラメーターを備えた InternLM-XComposer2-4KHD モデル シリーズは、https://github.com/InternLM/InternLM-XComposer で公開されています。

要約(オリジナル)

The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

arxiv情報

著者 Xiaoyi Dong,Pan Zhang,Yuhang Zang,Yuhang Cao,Bin Wang,Linke Ouyang,Songyang Zhang,Haodong Duan,Wenwei Zhang,Yining Li,Hang Yan,Yang Gao,Zhe Chen,Xinyue Zhang,Wei Li,Jingwen Li,Wenhai Wang,Kai Chen,Conghui He,Xingcheng Zhang,Jifeng Dai,Yu Qiao,Dahua Lin,Jiaqi Wang
発行日 2024-04-09 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク