ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

要約

AI の最近の進歩により、画像内のテキストとビジュアル コンテンツに対する共同推論を含む複雑なタスク (公共の場所での地図のナビゲーションなど) を処理できる大規模マルチモーダル モデル (LMM) の開発が行われました。
この文書では、LMM のコンテキスト依存のテキストリッチな視覚的推論を実行する能力を評価するために明示的に設計された命令で構成される新しいベンチマークである ConTextual を紹介します。
ConTextual は、テキスト要素と視覚要素の間の相互作用をより深く理解することを要求する、現実世界の多様なシナリオ (時間の読み取り、ナビゲーション、ショッピングなど) を重視します。
私たちの調査結果では、最高のパフォーマンスを発揮する LMM、GPT-4V(ision)、および人間の評価を使用した人間の能力の間には 30.8% という大きなパフォーマンスのギャップがあることが明らかになり、文脈に応じたテキストが豊富な視覚的推論には改善の余地が大きいことが示されています。
特に、GPT-4V はミームや引用の解釈などの抽象的なカテゴリでは優れていましたが、全体的なパフォーマンスは依然として人間には及ばなかったのです。
人間による評価に加えて、GPT-4 を使用した自動評価指標も採用し、パフォーマンス格差における同様の傾向を明らかにしました。
また、さまざまな視覚的コンテキストにわたってきめ細かい評価を実行し、LMM 設計の将来の進歩のための堅牢なフレームワークを提供する定性分析を提供します。
https://con-textual.github.io/

要約(オリジナル)

Recent advancements in AI have led to the development of large multimodal models (LMMs) capable of processing complex tasks involving joint reasoning over text and visual content in the image (e.g., navigating maps in public places). This paper introduces ConTextual, a novel benchmark comprising instructions designed explicitly to evaluate LMMs’ ability to perform context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse real-world scenarios (e.g., time-reading, navigation, shopping and more) demanding a deeper understanding of the interactions between textual and visual elements. Our findings reveal a significant performance gap of 30.8% between the best-performing LMM, GPT-4V(ision), and human capabilities using human evaluation indicating substantial room for improvement in context-sensitive text-rich visual reasoning. Notably, while GPT-4V excelled in abstract categories like meme and quote interpretation, its overall performance still lagged behind humans. In addition to human evaluations, we also employed automatic evaluation metrics using GPT-4, uncovering similar trends in performance disparities. We also perform a fine-grained evaluation across diverse visual contexts and provide qualitative analysis which provides a robust framework for future advancements in the LMM design. https://con-textual.github.io/

arxiv情報

著者 Rohan Wadhawan,Hritik Bansal,Kai-Wei Chang,Nanyun Peng
発行日 2024-01-24 09:07:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク