要約
Large Vision-Language Model (LVLM) の大幅な進歩にも関わらず、既存のピクセル グラウンディング モデルは単一画像設定で動作するため、複数の画像間で詳細かつきめ細かい比較を実行する機能が制限されています。
逆に、現在のマルチ画像理解モデルにはピクセルレベルの基礎が欠けています。
私たちの研究では、複数画像のピクセルに基づいた推論セグメンテーションのタスクと、ピクセルレベルの基礎と堅牢な複数画像推論機能を統合して、文脈に富んだピクセルに基づいた説明を生成する新しい LVLM である PRIMA を導入することで、このギャップに対処しています。
PRIMA の中心となるのは、複数の画像にわたるきめ細かい視覚表現をクエリする効率的なビジョン モジュールであり、TFLOP を $25.3\%$ 削減します。
トレーニングと評価をサポートするために、複数の画像にわたるきめ細かい視覚的理解を必要とする $\sim$224K の質問と回答のペアで構成される新しい推論セグメンテーション ベンチマークである $M^4Seg$ を厳選しました。
実験結果では、PRIMA が最先端のベースラインを上回るパフォーマンスを示しています。
要約(オリジナル)
Despite significant advancements in Large Vision-Language Models (LVLMs), existing pixel-grounding models operate on single-image settings, limiting their ability to perform detailed, fine-grained comparisons across multiple images. Conversely, current multi-image understanding models lack pixel-level grounding. Our work addresses this gap by introducing the task of multi-image pixel-grounded reasoning segmentation, and PRIMA, a novel LVLM that integrates pixel-level grounding with robust multi-image reasoning capabilities to produce contextually rich, pixel-grounded explanations. Central to PRIMA is an efficient vision module that queries fine-grained visual representations across multiple images, reducing TFLOPs by $25.3\%$. To support training and evaluation, we curate $M^4Seg$, a new reasoning segmentation benchmark consisting of $\sim$224K question-answer pairs that require fine-grained visual understanding across multiple images. Experimental results demonstrate PRIMA outperforms state-of-the-art baselines.
arxiv情報
著者 | Muntasir Wahed,Kiet A. Nguyen,Adheesh Sunil Juvekar,Xinzhuo Li,Xiaona Zhou,Vedant Shah,Tianjiao Yu,Pinar Yanardag,Ismini Lourentzou |
発行日 | 2024-12-19 18:59:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google