Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models

要約

Vision-Language Models(VLM)は最近、画像キャプション、視覚的な質問への回答、画像テキストの取得など、視覚的およびテキストの理解を統合するタスクに優れている強力なツールとして浮上しています。
ただし、VLMの既存のベンチマークには、オブジェクト検出やセマンティック理解などの関連タスクから空間的推論を分離できないことがよくあります。
この論文では、空間的推論を理解するための多面的なアプローチでこれらの欠陥に対処します。
人間の空間推論能力の多様で多次元的な性質によって知らされて、最初に空間的関係、方向とナビゲーション、精神的回転、空間視覚化の中心的要素を描写する詳細な分析を提示し、合成および実際の画像の両方のこれらのモデルのパフォーマンスを評価し、コントロールと自然なコンテンツを醸造します。
13の最先端のビジョン言語モデルを分析し、その空間推論パフォーマンスに関する極めて重要な洞察を明らかにします。
私たちの結果は、現在のVLMの深い欠点を明らかにしており、13のモデル全体で平均精度がランダムなチャンスに近いことを明らかにし、空間的推論を永続的な障害として強調しています。
この作業は、VLMS内の空間的推論を進めるための差し迫ったニーズを明らかにするだけでなく、将来の探査のための強固なプラットフォームを確立します。
github(https://github.com/stogiannidis/srbench)およびhuggingface(https://huggingface.co/datasets/stogiannidis/srbench)で利用可能なコード。

要約(オリジナル)

Vision-Language Models (VLMs) have recently emerged as powerful tools, excelling in tasks that integrate visual and textual comprehension, such as image captioning, visual question answering, and image-text retrieval. However, existing benchmarks for VLMs include spatial components, which often fail to isolate spatial reasoning from related tasks such as object detection or semantic comprehension. In this paper, we address these deficiencies with a multi-faceted approach towards understanding spatial reasoning. Informed by the diverse and multi-dimensional nature of human spatial reasoning abilities, we present a detailed analysis that first delineates the core elements of spatial reasoning: spatial relations, orientation and navigation, mental rotation, and spatial visualization, and then assesses the performance of these models in both synthetic and real-world images, bridging controlled and naturalistic contexts. We analyze 13 state-of-the-art Vision-Language Models, uncovering pivotal insights into their spatial reasoning performance. Our results reveal profound shortcomings in current VLMs, with average accuracy across the 13 models approximating random chance, highlighting spatial reasoning as a persistent obstacle. This work not only exposes the pressing need to advance spatial reasoning within VLMs but also establishes a solid platform for future exploration. Code available on GitHub (https://github.com/stogiannidis/srbench) and dataset available on HuggingFace (https://huggingface.co/datasets/stogiannidis/srbench).

arxiv情報

著者 Ilias Stogiannidis,Steven McDonagh,Sotirios A. Tsaftaris
発行日 2025-03-25 14:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models はコメントを受け付けていません

Enhancing Persona Consistency for LLMs’ Role-Playing using Persona-Aware Contrastive Learning

要約

近年、大規模な言語モデル(LLM)は、多くの対話生成タスクで画期的な進歩を達成しています。
しかし、彼らの感情の欠如と微調整された役割の認識により、モデルのパーソナライズされた多様な相互作用をさらに提供する能力が制限されます。
現在の方法は、ロールプレイングなどのシナリオの高品質の注釈データを収集する際に高いコストに直面しており、ロールプレイシナリオにおけるモデル行動の固有の多様性のため、従来の人間のアライメント方法は展開が困難です。
この論文では、RLHF(人間のフィードバックからの強化学習)を通じて安全行動のモデルの整合に触発され、ペルソナの調整の観点からモデルのロールプレイ行動を再検討し、\ textbf {\ underline {p}}} waultinive boertive boertiveの名前の\ textbf {\ underline {p}}という名前の名前のないフレームワークを提案します。
\ textbf {\ underline {l}}獲得(PCL)ロールプレイング中にLLMSの動作を調整し、モデルの役割の一貫性を高めます。
具体的には、最初に、ロールの特性と対話のコンテキストに基づいてモデルを自己質問に促すロールチェーン方法を設計し、性格の一貫性を調整します。
次に、ロール特性の使用とではなく使用する間の反復対比学習を通じて、モデルのロールプレイング戦略をさらに強化します。
ブラックボックスとホワイトボックスLLMの両方での実験は、PCLを装備したLLMが自動評価方法(Chareval \&GPT-4)および人間の専門家評価の下でバニラLLMを大幅に上回ることを示しています。

要約(オリジナル)

In recent years, large language models (LLMs) have achieved breakthrough progress in many dialogue generation tasks. However, their lack of emotion and fine-grained role awareness limits the model’s ability to provide personalized and diverse interactions further. Current methods face high costs in collecting high-quality annotated data for scenarios such as role-playing, and traditional human alignment methods are difficult to deploy due to the inherent diversity of model behavior in role-playing scenarios. Inspired by the alignment of models for safety behaviors through RLHF (Reinforcement Learning from Human Feedback), in this paper, we revisit model role-playing behavior from the perspective of persona alignment and propose a novel annotation-free framework named \textbf{\underline{P}}ersona-Aware \textbf{\underline{C}}ontrastive \textbf{\underline{L}}earning (PCL) to align LLMs’ behavior during role-playing, enhancing the model’s role consistency. Specifically, we first design a role chain method to encourage the model to self-question based on the role characteristics and dialogue context to adjust personality consistency. Then, we further enhance the model’s role-playing strategy through iterative contrastive learning between the use of role characteristics and not. Experiments on both black-box and white-box LLMs show that LLMs equipped with PCL significantly outperform vanilla LLMs under automatic evaluation methods (CharEval \& GPT-4) and human expert evaluation.

arxiv情報

著者 Ke Ji,Yixin Lian,Linxu Li,Jingsheng Gao,Weiyuan Li,Bin Dai
発行日 2025-03-25 14:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Persona Consistency for LLMs’ Role-Playing using Persona-Aware Contrastive Learning はコメントを受け付けていません

SemEval-2025 Task 9: The Food Hazard Detection Challenge

要約

この課題では、長い尾分散クラスを使用したテキストベースの食品ハザード予測を調査しました。
タスクは2つのサブタスクに分けられました。(1)Webテキストが10個のフードハザードカテゴリのいずれかを暗示し、関連する食品カテゴリを識別するかどうかを予測し、(2)ハザードと製品の両方に特定のラベルを割り当てることにより、より微調整された分類を提供します。
私たちの調査結果は、言語モデルで生成された大規模な合成データが、長期の分布をオーバーサンプリングするのに非常に効果的であることを強調しています。
さらに、微調整されたエンコーダーのみ、エンコーダデコーダー、デコーダーのみのシステムが、両方のサブタスクで同等の最大パフォーマンスを実現することがわかります。
この課題の間、私たちは徐々に(CC BY-NC-SA 4.0の下で)6,644の手動でラベル付けされた食品インシデントレポートの新しいセットをリリースしました。

要約(オリジナル)

In this challenge, we explored text-based food hazard prediction with long tail distributed classes. The task was divided into two subtasks: (1) predicting whether a web text implies one of ten food-hazard categories and identifying the associated food category, and (2) providing a more fine-grained classification by assigning a specific label to both the hazard and the product. Our findings highlight that large language model-generated synthetic data can be highly effective for oversampling long-tail distributions. Furthermore, we find that fine-tuned encoder-only, encoder-decoder, and decoder-only systems achieve comparable maximum performance across both subtasks. During this challenge, we gradually released (under CC BY-NC-SA 4.0) a novel set of 6,644 manually labeled food-incident reports.

arxiv情報

著者 Korbinian Randl,John Pavlopoulos,Aron Henriksson,Tony Lindgren,Juli Bakagianni
発行日 2025-03-25 16:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SemEval-2025 Task 9: The Food Hazard Detection Challenge はコメントを受け付けていません

Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy

要約

自動評価メトリックのメタ評価 – 評価メトリック自体の評価 – は、自然言語処理システムを正確にベンチマークするために重要であり、科学的調査、生産モデル開発、および政策施行に影響を与えます。
メトリックメタ評価への既存のアプローチは、任意のシステム出力全体のメトリックの絶対的および相対的な品質に関する一般的なステートメントに焦点を当てていますが、実際には、メトリックは非常にコンテキスト設定で適用され、多くの場合、システム出力の高度に制約されているセットのパフォーマンスを測定します。
たとえば、特定のモデルまたはクラスのモデルの評価にのみ関心がある場合があります。
評価メトリックのローカルメトリック精度を比較することにより、コンテキストメトリックメタ評価の方法を紹介します。
翻訳、音声認識、ランキングタスク全体で、評価のコンテキスト全体にシフトする際に、ローカルメトリックの精度は絶対値と相対的な有効性の両方が異なることを実証します。
この観察された変動は、グローバルなものよりもコンテキスト固有のメトリック評価を採用することの重要性を強調しています。

要約(オリジナル)

Meta-evaluation of automatic evaluation metrics — assessing evaluation metrics themselves — is crucial for accurately benchmarking natural language processing systems and has implications for scientific inquiry, production model development, and policy enforcement. While existing approaches to metric meta-evaluation focus on general statements about the absolute and relative quality of metrics across arbitrary system outputs, in practice, metrics are applied in highly contextual settings, often measuring the performance for a highly constrained set of system outputs. For example, we may only be interested in evaluating a specific model or class of models. We introduce a method for contextual metric meta-evaluation by comparing the local metric accuracy of evaluation metrics. Across translation, speech recognition, and ranking tasks, we demonstrate that the local metric accuracies vary both in absolute value and relative effectiveness as we shift across evaluation contexts. This observed variation highlights the importance of adopting context-specific metric evaluations over global ones.

arxiv情報

著者 Athiya Deviyani,Fernando Diaz
発行日 2025-03-25 16:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy はコメントを受け付けていません

Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

要約

OpenAI-O1やDeepSeek-R1などの大規模な言語モデル(LLMS)の最近の進歩は、テスト時間スケーリングの有効性を実証し、拡張された推論プロセスがモデルのパフォーマンスを大幅に向上させます。
それにもかかわらず、現在のモデルは、長いテキストと強化学習(RL)トレーニング効率の処理における制限によって制約されています。
これらの問題に対処するために、シンプルでありながら効果的なテスト時間スケーリングアプローチマルチラウンド思考を提案します。
この方法は、以前の回答をその後のラウンドのプロンプトとして活用することにより、モデルの推論を繰り返し改善します。
QWQ-32BやDeepSeek-R1を含む複数のモデルにわたる広範な実験は、AIME 2024、Math-500、GPQA-Diamond、LiveCodebenchなどのさまざまなベンチマークのパフォーマンスの改善を一貫して示しています。
たとえば、QWQ-32Bの精度は、AIME 2024データセットで80.3%(ラウンド1)から82.1%(ラウンド2)に向上しましたが、DeepSeek-R1は79.7%から82.0%に同様の増加を示しました。
これらの結果は、マルチラウンド思考がモデルパフォーマンスの安定した強化を達成するための広く適用可能で簡単なアプローチであり、テスト時間スケーリング技術の将来の開発の可能性を強調していることを確認しています。
キープロンプト:{元の質問プロンプト}アシスタントの前回の回答は次のとおりです。

要約(オリジナル)

Recent advances in large language models (LLMs), such as OpenAI-o1 and DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where extended reasoning processes substantially enhance model performance. Despite this, current models are constrained by limitations in handling long texts and reinforcement learning (RL) training efficiency. To address these issues, we propose a simple yet effective test-time scaling approach Multi-round Thinking. This method iteratively refines model reasoning by leveraging previous answers as prompts for subsequent rounds. Extensive experiments across multiple models, including QwQ-32B and DeepSeek-R1, consistently show performance improvements on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round 1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a similar increase from 79.7% to 82.0%. These results confirm that Multi-round Thinking is a broadly applicable, straightforward approach to achieving stable enhancements in model performance, underscoring its potential for future developments in test-time scaling techniques. The key prompt: {Original question prompt} The assistant’s previous answer is: {last round answer} , and please re-answer.

arxiv情報

著者 Xiaoyu Tian,Sitong Zhao,Haotian Wang,Shuaiting Chen,Yunjie Ji,Yiping Peng,Han Zhao,Xiangang Li
発行日 2025-03-25 17:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking はコメントを受け付けていません

Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators

要約

言語モデル(LM)出力はますます自然になるにつれて、品質を評価することがこれまで以上に難しくなっています。
同時に、テスト時間計算のスケーリングを通じてLMSの「思考」時間を増やすことは、数学やコードなどのドメインで困難な問題を解決するための効果的な手法であることが証明されています。
これは自然な疑問を提起します:LMの評価能力をより多くのテスト時間計算を費やすことで改善することもできますか?
これに答えるために、評価者としての長い考え方の推論をネイティブに生成する推論モデルLMSの採用を調査します。
具体的には、(1)推論モデルを使用してより多くのテスト時間計算を活用し、(2)これらのモデルに応答全体(つまり、結果の評価)を評価するだけでなく、応答の各ステップを個別に評価する(つまり、プロセス評価)を評価するように促す方法を調べます。
実験では、LMベースの世代で観察される傾向と同様に、より多くの推論トークンを生成するときに、評価者のパフォーマンスが単調に改善されることがわかります。
さらに、これらのより正確な評価者を使用して、複数の世代を再確認し、評価時間により多くのコンピューティングを使用することが、LMの問題解決能力を改善するために、より多くのコンピューティングを使用するのと同じくらい効果的であることを実証します。

要約(オリジナル)

As language model (LM) outputs get more and more natural, it is becoming more difficult than ever to evaluate their quality. Simultaneously, increasing LMs’ ‘thinking’ time through scaling test-time compute has proven an effective technique to solve challenging problems in domains such as math and code. This raises a natural question: can an LM’s evaluation capability also be improved by spending more test-time compute? To answer this, we investigate employing reasoning models-LMs that natively generate long chain-of-thought reasoning-as evaluators. Specifically, we examine methods to leverage more test-time compute by (1) using reasoning models, and (2) prompting these models to evaluate not only the response as a whole (i.e., outcome evaluation) but also assess each step in the response separately (i.e., process evaluation). In experiments, we observe that the evaluator’s performance improves monotonically when generating more reasoning tokens, similar to the trends observed in LM-based generation. Furthermore, we use these more accurate evaluators to rerank multiple generations, and demonstrate that spending more compute at evaluation time can be as effective as using more compute at generation time in improving an LM’s problem-solving capability.

arxiv情報

著者 Seungone Kim,Ian Wu,Jinu Lee,Xiang Yue,Seongyun Lee,Mingyeong Moon,Kiril Gashteovski,Carolin Lawrence,Julia Hockenmaier,Graham Neubig,Sean Welleck
発行日 2025-03-25 17:41:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators はコメントを受け付けていません

CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation

要約

大規模な言語モデル(LLM)は、特に検索された生成(RAG)を通じて自然言語処理(NLP)に革命をもたらしました。これは、外部の知識を統合することによりLLM機能を強化します。
ただし、従来のRAGシステムは、テキストのチャンクによる文脈的完全性の破壊や、検索のセマンティックな類似性への過度の依存など、重大な制限に直面しています。
これらの問題に対処するために、因果グラフを検索プロセスに組み込んだ新しいフレームワークである因果関係を提案します。
因果関係を構築および追跡することにより、因果関係はコンテキストの連続性を保持し、検索精度を改善し、より正確で解釈可能な応答につながります。
通常のRAGおよびグラフベースのRAGアプローチに対して因果関係を評価し、いくつかのメトリックにわたってその優位性を示します。
私たちの調査結果は、因果的推論における接地検索が知識集約型のタスクに対する有望なアプローチを提供することを示唆しています。

要約(オリジナル)

Large language models (LLMs) have revolutionized natural language processing (NLP), particularly through Retrieval-Augmented Generation (RAG), which enhances LLM capabilities by integrating external knowledge. However, traditional RAG systems face critical limitations, including disrupted contextual integrity due to text chunking, and over-reliance on semantic similarity for retrieval. To address these issues, we propose CausalRAG, a novel framework that incorporates causal graphs into the retrieval process. By constructing and tracing causal relationships, CausalRAG preserves contextual continuity and improves retrieval precision, leading to more accurate and interpretable responses. We evaluate CausalRAG against regular RAG and graph-based RAG approaches, demonstrating its superiority across several metrics. Our findings suggest that grounding retrieval in causal reasoning provides a promising approach to knowledge-intensive tasks.

arxiv情報

著者 Nengbo Wang,Xiaotian Han,Jagdip Singh,Jing Ma,Vipin Chaudhary
発行日 2025-03-25 17:43:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation はコメントを受け付けていません

Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering

要約

ナレッジグラフ質問応答(KGQA)メソッドは、知識グラフ(KG)に保存されている関係情報を使用して、自然言語の質問に答えようとします。
大規模な言語モデル(LLM)の最近の進歩とそれらの顕著な推論能力により、KGQAのためにそれらを活用する傾向が高まっています。
しかし、既存の方法論は、事実上の質問に答えることにのみ焦点を合わせています。たとえば、「シルヴィオベルルスコーニの最初の妻が生まれたものでしたか?」。たとえば、実際のユーザーがより頻繁にポーズをとることができるというコモンセンスの推論を含む質問を残します。
対処されていない。
この作業では、KGQAの既存のLLMベースの方法、特にロングテールエンティティ(例えば、非最近のエンティティや最近のエンティティなど)を対象としたクエリでの幻覚と闘うため、特に推論プロセスが容易に立派ではないため、実際のアプリケーションでの適用性を妨げることが最初に観察します。
これに応じて、私たちは正しい理由(R3)であると提案します。これは、LLMの本質的に共感的な知識を公理的に浮上させ、KGトリプルのあらゆる事実上の推論ステップを接地することにより、検証可能な推論手順を可能にします。
3つの異なるタスクにわたる実験的評価(質問への回答、請求の検証、および優先マッチング)にわたる私たちの調査結果は、R3を優れたアプローチとして紹介し、既存の方法論を上回り、特に幻覚と推論エラーのインスタンスを削減します。

要約(オリジナル)

Knowledge Graph Question Answering (KGQA) methods seek to answer Natural Language questions using the relational information stored in Knowledge Graphs (KGs). With the recent advancements of Large Language Models (LLMs) and their remarkable reasoning abilities, there is a growing trend to leverage them for KGQA. However, existing methodologies have only focused on answering factual questions, e.g., ‘In which city was Silvio Berlusconi’s first wife born?’, leaving questions involving commonsense reasoning that real-world users may pose more often, e.g., ‘Do I need separate visas to see the Venus of Willendorf and attend the Olympics this summer?’ unaddressed. In this work, we first observe that existing LLM-based methods for KGQA struggle with hallucination on such questions, especially on queries targeting long-tail entities (e.g., non-mainstream and recent entities), thus hindering their applicability in real-world applications especially since their reasoning processes are not easily verifiable. In response, we propose Right for Right Reasons (R3), a commonsense KGQA methodology that allows for a verifiable reasoning procedure by axiomatically surfacing intrinsic commonsense knowledge of LLMs and grounding every factual reasoning step on KG triples. Through experimental evaluations across three different tasks–question answering, claim verification, and preference matching–our findings showcase R3 as a superior approach, outperforming existing methodologies and notably reducing instances of hallucination and reasoning errors.

arxiv情報

著者 Armin Toroghi,Willis Guo,Mohammad Mahdi Abdollah Pour,Scott Sanner
発行日 2025-03-25 17:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering はコメントを受け付けていません

One-vs.-One Mitigation of Intersectional Bias: A General Method to Extend Fairness-Aware Binary Classification

要約

現実の世界での機械学習の広範な採用により、差別的バイアスの影響が注目を集めています。
近年、バイアスを軽減するさまざまな方法が提案されています。
しかし、それらのほとんどは、保護されたグループの特定のサブグループに属する人々が複数の敏感な属性を考慮した場合に悪化する不公平な状況をもたらす交差バイアスを考慮していません。
このバイアスを緩和するために、このホワイトペーパーでは、バイナリ分類のための公正された機械学習と機密属性に関連する各サブグループ間の比較プロセスを適用することにより、1対1の緩和と呼ばれる方法を提案します。
3つのアプローチ(前処理、処理、および後処理)、6つのメトリック(人口統計パリティの比率と違い、等しいオッズ、機会均等)、および2つの実際のデータセット(成人とコンパ)を使用して、包括的な設定で従来の公平性を認識したバイナリ分類方法を比較します。
その結果、私たちの方法は、すべての設定で従来の方法よりもはるかに優れた交差バイアスを軽減します。
その結果、複数の機密属性があるときに発生するより現実的な問題を解決するための公平性を認識したバイナリ分類の可能性を開きます。

要約(オリジナル)

With the widespread adoption of machine learning in the real world, the impact of the discriminatory bias has attracted attention. In recent years, various methods to mitigate the bias have been proposed. However, most of them have not considered intersectional bias, which brings unfair situations where people belonging to specific subgroups of a protected group are treated worse when multiple sensitive attributes are taken into consideration. To mitigate this bias, in this paper, we propose a method called One-vs.-One Mitigation by applying a process of comparison between each pair of subgroups related to sensitive attributes to the fairness-aware machine learning for binary classification. We compare our method and the conventional fairness-aware binary classification methods in comprehensive settings using three approaches (pre-processing, in-processing, and post-processing), six metrics (the ratio and difference of demographic parity, equalized odds, and equal opportunity), and two real-world datasets (Adult and COMPAS). As a result, our method mitigates the intersectional bias much better than conventional methods in all the settings. With the result, we open up the potential of fairness-aware binary classification for solving more realistic problems occurring when there are multiple sensitive attributes.

arxiv情報

著者 Kenji Kobayashi,Yuri Nakao
発行日 2025-03-25 13:32:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, I.2.6 | One-vs.-One Mitigation of Intersectional Bias: A General Method to Extend Fairness-Aware Binary Classification はコメントを受け付けていません

Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation

要約

大規模なビジョン言語モデル(VLM)は、タスク固有のトレーニングなしで、プロンプトを解決することにより、多様なタスクを解決するように指示できる基礎モデルと見なされています。
一見明白な質問を調べます。これは、セマンティックセグメンテーションのためにVLMSを効果的に促す方法です。
そのために、分散排出データセットコレクションのテキストまたは視覚プロンプトのいずれかによって導かれたいくつかの最近のモデルのセグメンテーションパフォーマンスを体系的に評価します。
スケーラブルなプロンプトスキーム、いくつかのショットプロンプトのセマンティックセグメンテーションを紹介します。
VLMSは、特定のセグメンテーションタスクのために訓練された専門モデルに遅れをとっており、交差点統合のメトリックで平均で約30%であることがわかります。
さらに、テキストプロンプトと視覚的なプロンプトは補完的であることがわかります。他のモードが解決できる多くの例では、2つのモードのそれぞれが失敗します。
私たちの分析は、最も効果的な迅速なモダリティを予測できることがパフォーマンスの11%の改善につながる可能性があることを示唆しています。
私たちの調査結果に動機付けられているため、テキストと視覚的なプロンプトの両方を組み合わせた非常にシンプルなトレーニングフリーのベースラインであるPromptMatcherを提案し、最高のテキストプロンプトVLMを2.5%上回る最先端の結果を達成し、少数のショットプロンプトのセマンティック分割で最上位の視覚採用VLMを3.5%上回ります。

要約(オリジナル)

Large Vision-Language Models (VLMs) are increasingly being regarded as foundation models that can be instructed to solve diverse tasks by prompting, without task-specific training. We examine the seemingly obvious question: how to effectively prompt VLMs for semantic segmentation. To that end, we systematically evaluate the segmentation performance of several recent models guided by either text or visual prompts on the out-of-distribution MESS dataset collection. We introduce a scalable prompting scheme, few-shot prompted semantic segmentation, inspired by open-vocabulary segmentation and few-shot learning. It turns out that VLMs lag far behind specialist models trained for a specific segmentation task, by about 30% on average on the Intersection-over-Union metric. Moreover, we find that text prompts and visual prompts are complementary: each one of the two modes fails on many examples that the other one can solve. Our analysis suggests that being able to anticipate the most effective prompt modality can lead to a 11% improvement in performance. Motivated by our findings, we propose PromptMatcher, a remarkably simple training-free baseline that combines both text and visual prompts, achieving state-of-the-art results outperforming the best text-prompted VLM by 2.5%, and the top visual-prompted VLM by 3.5% on few-shot prompted semantic segmentation.

arxiv情報

著者 Niccolo Avogaro,Thomas Frick,Mattia Rigotti,Andrea Bartezzaghi,Filip Janicki,Cristiano Malossi,Konrad Schindler,Roy Assaf
発行日 2025-03-25 13:36:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation はコメントを受け付けていません