要約
大規模マルチモーダル モデル (LMM) は、単一画像ビジョン言語タスクで優れた結果を示しています。
ただし、複数画像の視覚言語タスクを解決する能力はまだ改善されていません。
OpenFlamingo、Emu2、Idefics などの既存の LMM は、Web からの何億ものノイズの多いインターリーブされた画像テキスト データに対する事前トレーニングを通じてマルチ画像機能を獲得していますが、これは効率的でも効果的でもありません。
この論文では、学術レベルのリソースを使用した命令チューニングを通じて、強力なマルチイメージ LMM を構築することを目指しています。
したがって、Mantis モデルのファミリーをトレーニングするために、721K のマルチイメージ命令データを含む Mantis-Instruct を細心の注意を払って構築します。
命令のチューニングにより、Mantis は、相互参照、比較、推論、時間的理解など、さまざまなマルチイメージ スキルを身に付けることができます。
Mantis を 8 つのマルチ画像ベンチマークと 6 つの単一画像ベンチマークで評価します。
Mantis-Idefics2 は、すべてのマルチイメージ ベンチマークで SoTA の結果を達成し、最強のマルチイメージ ベースラインである Idefics2-8B を平均 13 絶対ポイント上回っています。
特に、Idefics2-8B は、Mantis-Instruct の 200 倍である 140M のインターリーブされたマルチ画像データで事前トレーニングされました。
Mantis がホールドインベンチマークとホールドアウトベンチマークで同等に優れたパフォーマンスを示していることが観察され、これはその汎化能力を示しています。
さらに、単一イメージのベンチマークで Mantis を評価し、Mantis が CogVLM や Emu2 と同等の強力な単一イメージのパフォーマンスを維持していることを示します。
私たちの結果は、マルチイメージ能力は必ずしも大規模な事前トレーニングによって獲得されるわけではなく、低コストの命令チューニングによって獲得できることを示しています。
Mantis のトレーニングと評価により、LMM のマルチイメージ能力を向上させる将来の研究への道が開かれました。
要約(オリジナル)
Large multimodal models (LMMs) have shown great results in single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing LMMs like OpenFlamingo, Emu2, and Idefics gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from the web, which is neither efficient nor effective. In this paper, we aim to build strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K multi-image instruction data to train a family of Mantis models. The instruction tuning empowers Mantis with different multi-image skills like co-reference, comparison, reasoning, and temporal understanding. We evaluate Mantis on 8 multi-image benchmarks and 6 single-image benchmarks. Mantis-Idefics2 can achieve SoTA results on all the multi-image benchmarks and beat the strongest multi-image baseline, Idefics2-8B by an average of 13 absolute points. Notably, Idefics2-8B was pre-trained on 140M interleaved multi-image data, which is 200x larger than Mantis-Instruct. We observe that Mantis performs equivalently well on the held-in and held-out benchmarks, which shows its generalization ability. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis also maintains a strong single-image performance on par with CogVLM and Emu2. Our results show that multi-image abilities are not necessarily gained through massive pre-training, instead, they can be gained by low-cost instruction tuning. The training and evaluation of Mantis has paved the road for future work to improve LMMs’ multi-image abilities.
arxiv情報
著者 | Dongfu Jiang,Xuan He,Huaye Zeng,Cong Wei,Max Ku,Qian Liu,Wenhu Chen |
発行日 | 2024-11-15 06:31:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google