MANTIS: Interleaved Multi-Image Instruction Tuning


近年、単一画像のビジョン言語タスクを効果的に解決するための、多数の大規模マルチモーダル モデル (LMM) が登場しています。
既存のマルチイメージ LMM (OpenFlamingo、Emu、Idefics など) は主に、Web からのノイズの多いインターリーブされた何億ものイメージテキスト データに対する事前トレーニングを通じてマルチイメージ機能を獲得しますが、これは効率的でも効果的でもありません。
この論文では、学術レベルのリソースを使用した命令チューニングを通じて、強力なマルチイメージ LMM を構築することを目的としています。
したがって、14 のマルチ画像データセットから 721K のインスタンスを含む Mantis-Instruct を細心の注意を払って構築します。
私たちは、共参照、推論、比較、時間的理解など、さまざまなマルチイメージスキルをカバーするように Mantis-Instruct を設計しています。
Mantis-Instruct をいくつかの単一画像視覚言語データセットと組み合わせて、インターリーブされた画像テキスト入力を処理できるようにモデル Mantis をトレーニングします。
トレーニングされた Mantis を 5 つのマルチ画像ベンチマークと 8 つの単一画像ベンチマークで評価します。
Mantis-8B は学術レベルのリソース (つまり、16xA100-40G で 36 時間) のみを必要としますが、すべてのマルチイメージ ベンチマークで最先端のパフォーマンスを達成でき、既存の最高のマルチイメージ LMM Idefics2-8B を次の点で上回ります。
平均 9 絶対ポイント。
Mantis は、ホールドイン評価ベンチマークとホールドアウト評価ベンチマークで同等に優れたパフォーマンスを示していることがわかります。
さらに、単一イメージのベンチマークで Mantis を評価し、Mantis が CogVLM や Emu2 と同等の強力な単一イメージのパフォーマンスを維持できることを実証します。
私たちの結果は、マルチイメージ LMM の構築に関して、低コストの命令チューニングが集中的な事前トレーニングよりも実際にはるかに効果的であることを示しているため、特に心強いものです。


The recent years have witnessed a great array of large multimodal models (LMMs) to effectively solve single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing multi-image LMMs (e.g. OpenFlamingo, Emu, Idefics, etc) mostly gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from web, which is neither efficient nor effective. In this paper, we aim at building strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K instances from 14 multi-image datasets. We design Mantis-Instruct to cover different multi-image skills like co-reference, reasoning, comparing, temporal understanding. We combine Mantis-Instruct with several single-image visual-language datasets to train our model Mantis to handle any interleaved image-text inputs. We evaluate the trained Mantis on five multi-image benchmarks and eight single-image benchmarks. Though only requiring academic-level resources (i.e. 36 hours on 16xA100-40G), Mantis-8B can achieve state-of-the-art performance on all the multi-image benchmarks and beats the existing best multi-image LMM Idefics2-8B by an average of 9 absolute points. We observe that Mantis performs equivalently well on the held-in and held-out evaluation benchmarks. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis can maintain a strong single-image performance on par with CogVLM and Emu2. Our results are particularly encouraging as it shows that low-cost instruction tuning is indeed much more effective than intensive pre-training in terms of building multi-image LMMs.


著者 Dongfu Jiang,Xuan He,Huaye Zeng,Cong Wei,Max Ku,Qian Liu,Wenhu Chen
発行日 2024-05-02 17:14:57+00:00
arxivサイト arxiv_id(pdf)

