PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation

要約

Large Vision-Language Model (LVLM) の大幅な進歩にも関わらず、既存のピクセルグラウンディングモデルは単一画像設定で動作するため、複数の画像間で詳細かつきめ細かい比較を実行する機能が制限されています。
逆に、現在のマルチ画像理解モデルにはピクセルレベルの基礎が欠けています。
私たちの研究では、複数画像のピクセルに基づいた推論セグメンテーションのタスクと、ピクセルレベルの基礎と堅牢な複数画像推論機能を統合して、文脈に富んだピクセルに基づいた説明を生成する新しい LVLM である PRIMA を導入することで、このギャップに対処しています。
PRIMA の中心となるのは、複数の画像にわたるきめ細かい視覚表現をクエリする効率的なビジョンモジュールであり、TFLOP を $25.3\%$ 削減します。
トレーニングと評価をサポートするために、複数の画像にわたるきめ細かい視覚的理解を必要とする $\sim$224K の質問と回答のペアで構成される新しい推論セグメンテーションベンチマークである $M^4Seg$ を厳選しました。
実験結果では、PRIMA が最先端のベースラインを上回るパフォーマンスを示しています。

要約(オリジナル)

Despite significant advancements in Large Vision-Language Models (LVLMs), existing pixel-grounding models operate on single-image settings, limiting their ability to perform detailed, fine-grained comparisons across multiple images. Conversely, current multi-image understanding models lack pixel-level grounding. Our work addresses this gap by introducing the task of multi-image pixel-grounded reasoning segmentation, and PRIMA, a novel LVLM that integrates pixel-level grounding with robust multi-image reasoning capabilities to produce contextually rich, pixel-grounded explanations. Central to PRIMA is an efficient vision module that queries fine-grained visual representations across multiple images, reducing TFLOPs by $25.3\%$. To support training and evaluation, we curate $M^4Seg$, a new reasoning segmentation benchmark consisting of $\sim$224K question-answer pairs that require fine-grained visual understanding across multiple images. Experimental results demonstrate PRIMA outperforms state-of-the-art baselines.

arxiv情報

著者	Muntasir Wahed,Kiet A. Nguyen,Adheesh Sunil Juvekar,Xinzhuo Li,Xiaona Zhou,Vedant Shah,Tianjiao Yu,Pinar Yanardag,Ismini Lourentzou
発行日	2024-12-19 18:59:44+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー