MANTIS: Interleaved Multi-Image Instruction Tuning

要約

近年、単一画像のビジョン言語タスクを効果的に解決するための、多数の大規模マルチモーダル モデル (LMM) が登場しています。
ただし、複数画像の視覚言語タスクを解決する能力はまだ改善されていません。
既存のマルチイメージ LMM (OpenFlamingo、Emu、Idefics など) は主に、Web からのノイズの多いインターリーブされた何億ものイメージテキスト データに対する事前トレーニングを通じてマルチイメージ機能を獲得しますが、これは効率的でも効果的でもありません。
この論文では、学術レベルのリソースを使用した命令チューニングを通じて、強力なマルチイメージ LMM を構築することを目的としています。
したがって、14 のマルチ画像データセットから 721K のインスタンスを含む Mantis-Instruct を細心の注意を払って構築します。
私たちは、共参照、推論、比較、時間的理解など、さまざまなマルチイメージスキルをカバーするように Mantis-Instruct を設計しています。
Mantis-Instruct をいくつかの単一画像視覚言語データセットと組み合わせて、インターリーブされた画像テキスト入力を処理できるようにモデル Mantis をトレーニングします。
トレーニングされた Mantis を 5 つのマルチ画像ベンチマークと 8 つの単一画像ベンチマークで評価します。
Mantis-8B は学術レベルのリソース (つまり、16xA100-40G で 36 時間) のみを必要としますが、すべてのマルチイメージ ベンチマークで最先端のパフォーマンスを達成でき、既存の最高のマルチイメージ LMM Idefics2-8B を次の点で上回ります。
平均 9 絶対ポイント。
Mantis は、ホールドイン評価ベンチマークとホールドアウト評価ベンチマークで同等に優れたパフォーマンスを示していることがわかります。
さらに、単一イメージのベンチマークで Mantis を評価し、Mantis が CogVLM や Emu2 と同等の強力な単一イメージのパフォーマンスを維持できることを実証します。
私たちの結果は、マルチイメージ LMM の構築に関して、低コストの命令チューニングが集中的な事前トレーニングよりも実際にはるかに効果的であることを示しているため、特に心強いものです。

要約(オリジナル)

The recent years have witnessed a great array of large multimodal models (LMMs) to effectively solve single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing multi-image LMMs (e.g. OpenFlamingo, Emu, Idefics, etc) mostly gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from web, which is neither efficient nor effective. In this paper, we aim at building strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K instances from 14 multi-image datasets. We design Mantis-Instruct to cover different multi-image skills like co-reference, reasoning, comparing, temporal understanding. We combine Mantis-Instruct with several single-image visual-language datasets to train our model Mantis to handle any interleaved image-text inputs. We evaluate the trained Mantis on five multi-image benchmarks and eight single-image benchmarks. Though only requiring academic-level resources (i.e. 36 hours on 16xA100-40G), Mantis-8B can achieve state-of-the-art performance on all the multi-image benchmarks and beats the existing best multi-image LMM Idefics2-8B by an average of 9 absolute points. We observe that Mantis performs equivalently well on the held-in and held-out evaluation benchmarks. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis can maintain a strong single-image performance on par with CogVLM and Emu2. Our results are particularly encouraging as it shows that low-cost instruction tuning is indeed much more effective than intensive pre-training in terms of building multi-image LMMs.

arxiv情報

著者 Dongfu Jiang,Xuan He,Huaye Zeng,Cong Wei,Max Ku,Qian Liu,Wenhu Chen
発行日 2024-05-02 17:14:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク