PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?

要約

マルチモーダルの大手言語モデル(MLLM)の境界をピクセルレベルの理解に向けて、複数の作品が現れました。
ピクセルレベルのMLLMSの現在の傾向は、セグメンテーションタスクの特殊なデコーダーを備えた大規模ラベル付きデータでピクセルレベルの接地監督でトレーニングすることです。
ただし、最近の挑戦的な視覚中心のベンチマークで評価されたとき、このようなMLLMは、視覚的な質問(VQA)に弱い能力を示すことを示しています。
驚くべきことに、これらの方法のいくつかは、そのようなピクセルレベルの監督で訓練されたことのないMLLMの接地能力を格下げさえしています。
この作業では、VQAと接地の両方のペア評価を伴う2つの新しい挑戦的なベンチマークを提案します。
ピクセルレベルの接地監督のないMLLMが、そのようなタスクのアートの最新を上回ることができることを示しています。
当社のペアのベンチマークと評価により、VQAおよび/または接地に関する障害の理由に関する追加の分析が可能になります。
さらに、PixFoundationと呼ばれるMLLMに差し込むことができる接地情報を抽出するための簡単なベースラインを提案します。
さらに重要なことは、「ピクセルレベルの接地監督で訓練されていないMLLMSに接地がいつ出現するのか」という研究の質問を研究しています。
接地は、オブジェクトの部分、その位置、外観、コンテキスト、または状態と一致することを示します。ここでは、両方のベンチマークの例の27〜45%がこの現象を示しています。
私たちのコードとデータセットは公開され、一部は補足的です。

要約(オリジナル)

Multiple works have emerged to push the boundaries on multi-modal large language models (MLLMs) towards pixel-level understanding. The current trend in pixel-level MLLMs is to train with pixel-level grounding supervision on large-scale labelled data with specialized decoders for the segmentation task. However, we show that such MLLMs when evaluated on recent challenging vision-centric benchmarks, exhibit a weak ability in visual question answering (VQA). Surprisingly, some of these methods even downgrade the grounding ability of MLLMs that were never trained with such pixel-level supervision. In this work, we propose two novel challenging benchmarks with paired evaluation for both VQA and grounding. We show that MLLMs without pixel-level grounding supervision can outperform the state of the art in such tasks. Our paired benchmarks and evaluation enable additional analysis on the reasons for failure with respect to VQA and/or grounding. Furthermore, we propose simple baselines to extract the grounding information that can be plugged into any MLLM, which we call PixFoundation. More importantly, we study the research question of ‘When does grounding emerge in MLLMs that are not trained with pixel-level grounding supervision?’ We show that grounding can coincide with object parts, its location, appearance, context or state, where we show 27-45% of the examples in both benchmarks exhibit this phenomenon. Our code and datasets will be made publicly available and some are in the supplemental.

arxiv情報

著者 Mennatullah Siam
発行日 2025-06-02 07:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク