要約
深層学習の復活に始まり、大規模言語モデル (LLM) の恩恵を受けるビジョン言語モデル (VLM) がかつてないほど人気を集めています。
ただし、LLM はコンテキスト内学習で広範な背景知識とタスク情報を活用できますが、ほとんどの VLM は、複数の画像を含む複雑なマルチモーダル プロンプトを理解するのに依然として苦労しています。
この問題は、VLM のアーキテクチャ設計または事前トレーニング データにまで遡ることができます。
具体的には、現在の VLM は、複数の画像とテキストがインターリーブされたマルチモーダル プロンプトではなく、単一の画像を含むマルチモーダル データの利用を主に重視しています。
新しく提案された VLM の中には、複数の画像を含むユーザー プロンプトを処理できるものもありますが、事前トレーニング データは、Web からクロールされた画像とテキストがインターリーブされたものよりも洗練されたマルチモーダル プロンプトを提供しません。
私たちは、モデルとデータの両方の観点を考慮して問題に対処する MMICL を提案します。
私たちは、インターリーブ方式でビジュアルとテキストのコンテキストをシームレスに統合できる適切に設計されたアーキテクチャと MIC データセットを導入して、トレーニング データと現実世界のアプリケーションにおける複雑なユーザー プロンプトの間のギャップを削減します。1) マルチモーダル コンテキスト
インターリーブされた画像とテキスト、2) 各画像のテキスト参照、3) 空間的、論理的、または時間的な関係を持つ複数の画像データ。
私たちの実験では、MMICL が、特に MME や MMBench などの複雑な推論ベンチマークにおいて、幅広い一般的な視覚言語タスクで、新しい最先端のゼロショットおよび少数ショットのパフォーマンスを達成することが確認されました。
私たちの分析は、MMICL が複雑なマルチモーダルな迅速な理解という課題に効果的に対処していることを示しています。
ScienceQA-IMG の実験では、MMICL が VLM の言語バイアスの問題を軽減することに成功していることも示しており、これが MMICL の高度なパフォーマンスの背後にある理由であると考えられます。
要約(オリジナル)
Starting from the resurgence of deep learning, vision-language models (VLMs) benefiting from large language models (LLMs) have never been so popular. However, while LLMs can utilize extensive background knowledge and task information with in-context learning, most VLMs still struggle with understanding complex multi-modal prompts with multiple images. The issue can traced back to the architectural design of VLMs or pre-training data. Specifically, the current VLMs primarily emphasize utilizing multi-modal data with a single image some, rather than multi-modal prompts with interleaved multiple images and text. Even though some newly proposed VLMs could handle user prompts with multiple images, pre-training data does not provide more sophisticated multi-modal prompts than interleaved image and text crawled from the web. We propose MMICL to address the issue by considering both the model and data perspectives. We introduce a well-designed architecture capable of seamlessly integrating visual and textual context in an interleaved manner and MIC dataset to reduce the gap between the training data and the complex user prompts in real-world applications, including: 1) multi-modal context with interleaved images and text, 2) textual references for each image, and 3) multi-image data with spatial, logical, or temporal relationships. Our experiments confirm that MMICL achieves new stat-of-the-art zero-shot and few-shot performance on a wide range of general vision-language tasks, especially for complex reasoning benchmarks including MME and MMBench. Our analysis demonstrates that MMICL effectively deals with the challenge of complex multi-modal prompt understanding. The experiments on ScienceQA-IMG also show that MMICL successfully alleviates the issue of language bias in VLMs, which we believe is the reason behind the advanced performance of MMICL.
arxiv情報
著者 | Haozhe Zhao,Zefan Cai,Shuzheng Si,Xiaojian Ma,Kaikai An,Liang Chen,Zixuan Liu,Sheng Wang,Wenjuan Han,Baobao Chang |
発行日 | 2023-09-14 17:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google