Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models

要約

視覚言語モデル(VLM)の最近の進歩により、視覚化されたグラフデータの解釈に有望な機能が示されており、従来のグラフニューラルネットワーク(GNNS)を超えたグラフ構造の推論の新しい視点を提供します。
ただし、既存の研究は主に単一のグラフの推論に焦点を当てており、マルチグラフ共同推論の重要な課題を未定の困難に残しています。
この作業では、VLMのマルチグラフの推論能力を評価および強化するために設計された最初の包括的なベンチマークを紹介します。
当社のベンチマークは、4つの一般的なグラフタイプの知識グラフ、フローチャート、マインドマップ、ルートマップをカバーし、複雑さの増加タスクを備えた均質および異種グラフグループの両方をサポートします。
グラフの解析、推論の一貫性、および命令に応じた精度を評価する多次元スコアリングフレームワークの下で、いくつかの最先端のVLMを評価します。
さらに、複数のオープンソースモデルを微調整し、一貫した改善を観察し、データセットの有効性を確認します。
この作業は、マルチグラフの理解を深めるための原則的なステップを提供し、クロスモーダルグラフインテリジェンスの新しい機会を明らかにします。

要約(オリジナル)

Recent advances in Vision-Language Models (VLMs) have shown promising capabilities in interpreting visualized graph data, offering a new perspective for graph-structured reasoning beyond traditional Graph Neural Networks (GNNs). However, existing studies focus primarily on single-graph reasoning, leaving the critical challenge of multi-graph joint reasoning underexplored. In this work, we introduce the first comprehensive benchmark designed to evaluate and enhance the multi-graph reasoning abilities of VLMs. Our benchmark covers four common graph types-knowledge graphs, flowcharts, mind maps, and route maps-and supports both homogeneous and heterogeneous graph groupings with tasks of increasing complexity. We evaluate several state-of-the-art VLMs under a multi-dimensional scoring framework that assesses graph parsing, reasoning consistency, and instruction-following accuracy. Additionally, we fine-tune multiple open-source models and observe consistent improvements, confirming the effectiveness of our dataset. This work provides a principled step toward advancing multi-graph understanding and reveals new opportunities for cross-modal graph intelligence.

arxiv情報

著者 Ruizhou Li,Haiyun Jiang
発行日 2025-05-26 16:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models はコメントを受け付けていません

Leveraging Descriptions of Emotional Preferences in Recommender Systems

要約

推奨されるアイテムを好むという感情的な態度は、魅力的または興味をそそられる感情、陽気な気持ちや浮力などの感情、および「結論に驚かされる」などのより微調整された感情的な状態を含む、幅広い感情的な現象の1つのカテゴリのみを反映しています。
この論文では、消費時にそれらの感情状態を誘発する可能性が高いアイテムを特定するために、ユーザーが明示的に求められている感情状態の実質的に無制限の範囲を活用できる新しい推奨タスクを紹介します。
それに対応して、帳簿レビューから採掘された細粒の感情状態の表現を含むユーザー設定の大きなデータセットを作成し、入力としてそのような感情表現を活用するトランスベースのアーキテクチャを提案します。
次に、リンクされたユーザーと帳簿価格、評価、レビューの履歴とともに、感情状態の好みの結果のデータセットを使用して、推奨されるアイテムを感情的な好みと一致させるタスクに関する複数の推奨モデルをトレーニングおよび評価します。
実験は、アイテムとユーザーの感情的な好みのテキストの説明を利用できるモデルによって最良の結果が得られることを示しています。

要約(オリジナル)

The affective attitude of liking a recommended item reflects just one category in a wide spectrum of affective phenomena that also includes emotions such as entranced or intrigued, moods such as cheerful or buoyant, as well as more fine-grained affective states, such as ‘pleasantly surprised by the conclusion’. In this paper, we introduce a novel recommendation task that can leverage a virtually unbounded range of affective states sought explicitly by the user in order to identify items that, upon consumption, are likely to induce those affective states. Correspondingly, we create a large dataset of user preferences containing expressions of fine-grained affective states that are mined from book reviews, and propose a Transformer-based architecture that leverages such affective expressions as input. We then use the resulting dataset of affective states preferences, together with the linked users and their histories of book readings, ratings, and reviews, to train and evaluate multiple recommendation models on the task of matching recommended items with affective preferences. Experiments show that the best results are obtained by models that can utilize textual descriptions of items and user affective preferences.

arxiv情報

著者 Tonmoy Hasan,Razvan Bunescu
発行日 2025-05-26 16:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Leveraging Descriptions of Emotional Preferences in Recommender Systems はコメントを受け付けていません

Temporal Sampling for Forgotten Reasoning in LLMs

要約

大型言語モデル(LLMS)の微調整は、推論能力を改善することを目的としていますが、直感に反する効果を明らかにします。モデルは、トレーニング中に以前に正しく答えた問題を解決する方法を忘れます。
この現象は一時的な忘却と呼ばれ、モデルサイズ、微調整方法(補強学習と監視された微調整の両方)、および複数の推論ベンチマーク全体に広がっていることを示しています。
このギャップに対処するために、トレーニングの軌跡に沿って複数のチェックポイントから出力を引き出す単純なデコード戦略である時間サンプリングを導入します。
このアプローチは、再訓練やアンサンブルなしで忘れられたソリューションを回復し、推論パフォーマンスの大幅な改善、パス@Kの4ポイントから19ポイントの増加、およびいくつかのベンチマーク全体で@Kの一貫した利益をもたらします。
さらに、方法をロラ適応モデルに拡張し、チェックポイントにアダプターの重みのみを保存することで、ストレージコストが最小限に抑えられて同様の利点が得られることを実証します。
トレーニングに固有の時間的多様性を活用することにより、一時的なサンプリングは、隠された推論能力を表現し、LLMを評価する方法を再考するための実用的で計算効率の良い方法を提供します。

要約(オリジナル)

Fine-tuning large language models (LLMs) is intended to improve their reasoning capabilities, yet we uncover a counterintuitive effect: models often forget how to solve problems they previously answered correctly during training. We term this phenomenon temporal forgetting and show that it is widespread across model sizes, fine-tuning methods (both Reinforcement Learning and Supervised Fine-Tuning), and multiple reasoning benchmarks. To address this gap, we introduce Temporal Sampling, a simple decoding strategy that draws outputs from multiple checkpoints along the training trajectory. This approach recovers forgotten solutions without retraining or ensembling, and leads to substantial improvements in reasoning performance, gains from 4 to 19 points in Pass@k and consistent gains in Majority@k across several benchmarks. We further extend our method to LoRA-adapted models, demonstrating that storing only adapter weights across checkpoints achieves similar benefits with minimal storage cost. By leveraging the temporal diversity inherent in training, Temporal Sampling offers a practical, compute-efficient way to surface hidden reasoning ability and rethink how we evaluate LLMs.

arxiv情報

著者 Yuetai Li,Zhangchen Xu,Fengqing Jiang,Bhaskar Ramasubramanian,Luyao Niu,Bill Yuchen Lin,Xiang Yue,Radha Poovendran
発行日 2025-05-26 16:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Temporal Sampling for Forgotten Reasoning in LLMs はコメントを受け付けていません

Shutdownable Agents through POST-Agency

要約

多くの人が、将来の人工剤が閉鎖に抵抗することを恐れています。
私は、それが起こらないことを保証するためのアイデア – エージェントの提案 – を提示します。
私は、同じ長さの軌跡の間でのみ好みを満たすようにエージェントを訓練することを提案します(post)。
次に、他の条件と一緒に投稿が中立性+を意味することを証明します。エージェントは、軌道長の確率分布を無視して、予想されるユーティリティを最大化します。
ニュートラリティ+はエージェントをシャットダウン可能に保ち、有用にすることを可能にすると主張します。

要約(オリジナル)

Many fear that future artificial agents will resist shutdown. I present an idea – the POST-Agents Proposal – for ensuring that doesn’t happen. I propose that we train agents to satisfy Preferences Only Between Same-Length Trajectories (POST). I then prove that POST – together with other conditions – implies Neutrality+: the agent maximizes expected utility, ignoring the probability distribution over trajectory-lengths. I argue that Neutrality+ keeps agents shutdownable and allows them to be useful.

arxiv情報

著者 Elliott Thornley
発行日 2025-05-26 16:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Shutdownable Agents through POST-Agency はコメントを受け付けていません

Evaluating Large Language Models for Code Review

要約

コンテキスト:ソフトウェアの品質にはコードレビューが重要です。
最近のAI Advancesにより、大規模な言語モデル(LLM)がコードを確認および修正することができました。
現在、これらのレビューを実行するツールがあります。
ただし、それらの信頼性と精度はまだ体系的に評価されていません。
目的:この研究では、コードの正しさを検出し、改善を示唆するLLMSのパフォーマンスを比較しています。
方法:492 AI生成されたCode CodeブロックでGPT4OおよびGEMINI 2.0 Flashをテストし、Humaneval Benchmarkから164の正規コードブロックをテストしました。
コードレビュータスクを客観的にシミュレートするために、LLMがコードの正しさを評価し、必要に応じてコードを改善することを期待していました。
さまざまな構成で実験を実行し、結果について報告しました。
結果:問題の説明を使用して、GPT4OおよびGEMINI 2.0は、それぞれ68.50%と63.89%の時間の正確さを正しく分類し、492コードブロックの信頼性の492コードブロックの時間の67.83%と54.26%を修正しました。
問題のない説明がなければ、パフォーマンスは低下しました。
164の標準コードブロックの結果は異なり、パフォーマンスがコードのタイプに依存することを示唆しています。
結論:LLMコードレビューは、改善を提案し、正確性を評価するのに役立ちますが、出力が誤っているリスクがあります。
「ループLLMコードレビュー」と呼ばれる人間が関与するプロセスを提案し、出力の故障のリスクを軽減しながら知識の共有を促進します。

要約(オリジナル)

Context: Code reviews are crucial for software quality. Recent AI advances have allowed large language models (LLMs) to review and fix code; now, there are tools that perform these reviews. However, their reliability and accuracy have not yet been systematically evaluated. Objective: This study compares different LLMs’ performance in detecting code correctness and suggesting improvements. Method: We tested GPT4o and Gemini 2.0 Flash on 492 AI generated code blocks of varying correctness, along with 164 canonical code blocks from the HumanEval benchmark. To simulate the code review task objectively, we expected LLMs to assess code correctness and improve the code if needed. We ran experiments with different configurations and reported on the results. Results: With problem descriptions, GPT4o and Gemini 2.0 Flash correctly classified code correctness 68.50% and 63.89% of the time, respectively, and corrected the code 67.83% and 54.26% of the time for the 492 code blocks of varying correctness. Without problem descriptions, performance declined. The results for the 164 canonical code blocks differed, suggesting that performance depends on the type of code. Conclusion: LLM code reviews can help suggest improvements and assess correctness, but there is a risk of faulty outputs. We propose a process that involves humans, called the ‘Human in the loop LLM Code Review’ to promote knowledge sharing while mitigating the risk of faulty outputs.

arxiv情報

著者 Umut Cihan,Arda İçöz,Vahid Haratian,Eray Tüzün
発行日 2025-05-26 16:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Evaluating Large Language Models for Code Review はコメントを受け付けていません

Parameter-Efficient Fine-Tuning with Column Space Projection

要約

最小限の計算オーバーヘッドで大規模な言語モデル(LLMS)を微調整することは、リソースの制約の下でそれらを下流のタスクに効率的に適応させるために不可欠です。
低ランク適応(LORA)などのパラメーター効率の高い微調整(PEFT)メソッドは、パラメーターの小さなサブセットのみを更新することにより、これを容易にします。
しかし、最近の研究では、LORAは、特にスペクトル特性の観点から、その学習行動において完全な微調整(完全なFT)とは異なることが示されています。
これらの発見に動機付けられて、微調整された重量のスペクトル特性に基づいた最初の理論的に接地されたPEFT法であるPICAを提案します。
PICAは、事前に訓練された重量の低ランク列の部分空間に勾配を投影し、完全なFTとより密接に整合した学習パターンを示します。
さらに、PICAと重量共有を組み合わせることで、パフォーマンスを損なうことなくトレーニング可能なパラメーターの数を大幅に削減し、13倍のトレーニング可能なパラメーターを使用してLORAよりも優れたパフォーマンスを実現できることを示しています。
広範な実験は、PICAが既存のPEFTメソッドと比較して最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Fine-tuning large language models (LLMs) with minimal computational overhead is essential for efficiently adapting them to downstream tasks under resource constraints. Parameter-efficient fine-tuning (PEFT) methods, such as Low-Rank Adaptation (LoRA), facilitate this by updating only a small subset of parameters. However, recent studies show that LoRA diverges from full fine-tuning (Full FT) in its learning behavior, particularly in terms of spectral properties. Motivated by these findings, we propose PiCa, the first theoretically grounded PEFT method based on the spectral properties of fine-tuned weights. PiCa projects gradients onto the low-rank column subspace of pre-trained weights and exhibits learning patterns more closely aligned with Full FT. Furthermore, we show that combining PiCa with weight sharing drastically reduces the number of trainable parameters without compromising performance, enabling to achieve superior performance than LoRA using 13x fewer trainable parameters. Extensive experiments demonstrate PiCa achieves the state-of-the-art performance compared to existing PEFT methods.

arxiv情報

著者 Junseo Hwang,Wonguk Cho,Taesup Kim
発行日 2025-05-26 16:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Parameter-Efficient Fine-Tuning with Column Space Projection はコメントを受け付けていません

The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels

要約

推論モデルは最近、特に複雑な推論を伴うタスクについて、大きな注目を集めています。
それらの強みは、システムI(迅速、ヒューリスティック駆動型)とは対照的に、システムIIパラダイム(ゆっくり、構造化された思考)を例示しています。
しかし、推論が遅いことは必然的により大きな真実性につながりますか?
私たちの調査結果はそうでないことを示唆しています。
この研究では、マルチモーダルコンテキストでのシステムIおよびシステムII推論に関連する歪みの最初の体系的な調査を提示します。
不完全または誤解を招く視覚入力を提示すると、より遅い推論モデルが、「マルチモダリティのmi気楼」と呼ばれる現象です。
これを調べるために、50人の人間の参加者が注釈を付けた5,000サンプルの階層プロンプトデータセットを構築しました。
これらのプロンプトは徐々に複雑さを増加させ、一貫したパターンを明らかにします。より遅い推論モデルは、深さ最初の思考を採用する傾向があります(間違った施設をより深く掘り下げます)。
私たちの結果は、より遅い推論モデルの重大な脆弱性を強調しています。数学などの構造化されたドメインでは非常に効果的ですが、あいまいなマルチモーダル入力に直面すると脆くなります。

要約(オリジナル)

Reasoning models have recently attracted significant attention, especially for tasks that involve complex inference. Their strengths exemplify the System II paradigm (slow, structured thinking), contrasting with the System I (rapid, heuristic-driven). Yet, does slower reasoning necessarily lead to greater truthfulness? Our findings suggest otherwise. In this study, we present the first systematic investigation of distortions associated with System I and System II reasoning in multimodal contexts. We demonstrate that slower reasoning models, when presented with incomplete or misleading visual inputs, are more likely to fabricate plausible yet false details to support flawed reasoning — a phenomenon we term the ‘Mirage of Multimodality’. To examine this, we constructed a 5,000-sample hierarchical prompt dataset annotated by 50 human participants. These prompts gradually increase in complexity, revealing a consistent pattern: slower reasoning models tend to employ depth-first thinking (delving deeper into incorrect premises), whereas faster chat models favor breadth-first inference, exhibiting greater caution under uncertainty. Our results highlight a critical vulnerability of slower reasoning models: although highly effective in structured domains such as mathematics, it becomes brittle when confronted with ambiguous multimodal inputs.

arxiv情報

著者 Jiaming Ji,Sitong Fang,Wenjing Cao,Jiahao Li,Xuyao Wang,Juntao Dai,Chi-Min Chan,Sirui Han,Yike Guo,Yaodong Yang
発行日 2025-05-26 16:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels はコメントを受け付けていません

From What to How: Attributing CLIP’s Latent Components Reveals Unexpected Semantic Reliance

要約

トランスベースのクリップモデルは、テキストイメージの調査と特徴抽出に広く使用されており、予測の背後にある内部メカニズムを理解することが関連しています。
最近の作品は、スパースオートエンコーダー(SAE)が解釈可能な潜在コンポーネントを生成することを示していますが、これらのエンコードに焦点を当て、予測を推進する方法を逃しています。
潜在的なコンポーネントがアクティブ化するもの、予想されるセマンティクスとどのように整合するか、予測にとってどれほど重要かを明らかにするスケーラブルなフレームワークを紹介します。
これを達成するために、たとえばクリップでの属性パッチングを適応させ、広く使用されているロジットレンズ技術の重要な忠実さの制限を強調します。
属性をセマンティックアライメントスコアと組み合わせることにより、意味的に予期しない概念または偽の概念をコードするコンポーネントへの依存を自動的に明らかにすることができます。
複数のクリップバリエーションに適用されたこの方法は、多目的単語、複合名詞、視覚的なタイポグラフィ、およびデータセットアーティファクトにリンクされた何百もの驚くべきコンポーネントを明らかにします。
テキストの埋め込みは、セマンティックな曖昧さを起こしやすいままですが、画像の埋め込みで訓練された線形分類器と比較して、偽の相関に対してより堅牢です。
皮膚病変の検出に関するケーススタディは、そのような分類器が隠されたショートカットをどのように増幅するかを強調し、全体的で機械的な解釈可能性の必要性を強調しています。
https://github.com/maxdreyer/attributing-clipでコードを提供します。

要約(オリジナル)

Transformer-based CLIP models are widely used for text-image probing and feature extraction, making it relevant to understand the internal mechanisms behind their predictions. While recent works show that Sparse Autoencoders (SAEs) yield interpretable latent components, they focus on what these encode and miss how they drive predictions. We introduce a scalable framework that reveals what latent components activate for, how they align with expected semantics, and how important they are to predictions. To achieve this, we adapt attribution patching for instance-wise component attributions in CLIP and highlight key faithfulness limitations of the widely used Logit Lens technique. By combining attributions with semantic alignment scores, we can automatically uncover reliance on components that encode semantically unexpected or spurious concepts. Applied across multiple CLIP variants, our method uncovers hundreds of surprising components linked to polysemous words, compound nouns, visual typography and dataset artifacts. While text embeddings remain prone to semantic ambiguity, they are more robust to spurious correlations compared to linear classifiers trained on image embeddings. A case study on skin lesion detection highlights how such classifiers can amplify hidden shortcuts, underscoring the need for holistic, mechanistic interpretability. We provide code at https://github.com/maxdreyer/attributing-clip.

arxiv情報

著者 Maximilian Dreyer,Lorenz Hufe,Jim Berend,Thomas Wiegand,Sebastian Lapuschkin,Wojciech Samek
発行日 2025-05-26 17:08:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | From What to How: Attributing CLIP’s Latent Components Reveals Unexpected Semantic Reliance はコメントを受け付けていません

Variational Deep Learning via Implicit Regularization

要約

現代のディープラーニングモデルは、明示的な正則化をほとんどまたはまったくなしで訓練されているにもかかわらず、非常によく分配することを一般化します。
代わりに、現在の理論は、アーキテクチャ、ハイパーパラメーター、最適化手順の選択によって課される暗黙の正則化を称賛します。
ただし、ディープラーニングモデルを配置すること、順次意思決定タスク、または安全性が批判的なドメインで展開するには、ポイント推定だけでなく、信頼できる不確実性の定量化が必要です。
現代のおおよその推論の機械 – ベイジアンディープラーニング – は、不確実性の定量化の必要性に答える必要がありますが、その有効性は、プライアーを通じて有用な明示的な帰納的バイアスを定義できないことによって挑戦されています。
代わりに、この作業では、理論的および経験的に、標準的なディープラーニングと同様に、最適化手順を介して変動ディープネットワークを暗黙的に正規化する方法を示します。
一般化された変動推論としてオーバーパラメティングされた線形モデルの場合における(確率的)勾配降下の誘導バイアスを完全に特徴付け、パラメーター化の選択の重要性を実証します。
最後に、私たちのアプローチは、追加のハイパーパラメーターを調整せずに、標準的な深い学習よりも最小限の時間とメモリオーバーヘッドで、分散型および分散型の強いパフォーマンスを達成することを経験的に示します。

要約(オリジナル)

Modern deep learning models generalize remarkably well in-distribution, despite being overparametrized and trained with little to no explicit regularization. Instead, current theory credits implicit regularization imposed by the choice of architecture, hyperparameters and optimization procedure. However, deploying deep learning models out-of-distribution, in sequential decision-making tasks, or in safety-critical domains, necessitates reliable uncertainty quantification, not just a point estimate. The machinery of modern approximate inference — Bayesian deep learning — should answer the need for uncertainty quantification, but its effectiveness has been challenged by our inability to define useful explicit inductive biases through priors, as well as the associated computational burden. Instead, in this work we demonstrate, both theoretically and empirically, how to regularize a variational deep network implicitly via the optimization procedure, just as for standard deep learning. We fully characterize the inductive bias of (stochastic) gradient descent in the case of an overparametrized linear model as generalized variational inference and demonstrate the importance of the choice of parametrization. Finally, we show empirically that our approach achieves strong in- and out-of-distribution performance without tuning of additional hyperparameters and with minimal time and memory overhead over standard deep learning.

arxiv情報

著者 Jonathan Wenger,Beau Coker,Juraj Marusic,John P. Cunningham
発行日 2025-05-26 17:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Variational Deep Learning via Implicit Regularization はコメントを受け付けていません

DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning

要約

推論により、複雑なタスクでの大規模な言語モデル(LLMS)のパフォーマンスが大幅に向上しました。
現在の推論研究の中心であるプロセス報酬モデル(PRMS)は、中間推論の手順のきめの細かい評価を提供し、推論プロセスを導きます。
ただし、PRMSをマルチモーダル大手言語モデル(MLLM)に拡張すると、課題が導入されます。
マルチモーダルの推論は、テキストのみのシナリオと比較してより広い範囲のタスクをカバーするため、結果として生じるトレーニングからテストセットへの分布シフトはより深刻であり、より大きな一般化の難易度をもたらします。
したがって、信頼できるマルチモーダルPRMをトレーニングするには、十分なカバレッジを確保するために、大規模で多様なデータセットが必要です。
ただし、現在のマルチモーダル推論データセットは、PRMのパフォーマンスを低下させ、効果的なデータ選択戦略の必要性を強調する著しい品質の不均衡に悩まされています。
問題に対処するために、Biレベルの最適化を採用するマルチモーダルPRMSのドメイン式に照らされたトレーニングフレームワークであるDreamPRMを紹介します。
低レベルの最適化では、DreamPRMはドメイン重みの複数のデータセットで微調整を実行し、PRMが高品質の推論信号に優先順位を付け、データセット品質の不均衡の影響を緩和できるようにします。
上位レベルの最適化では、PRMは別のメタラーニングデータセットで評価されます。
このフィードバックは、集約損失関数を介してドメインの重みを更新し、それにより訓練されたPRMの一般化能力を改善します。
数学的および一般的な推論の両方をカバーする複数のマルチモーダル推論ベンチマークに関する広範な実験は、DreamPRMを使用したテスト時間スケーリングが一貫して最先端のMLLMのパフォーマンスを改善することを示しています。
さらなる比較により、DreamPRMのドメインを登録する戦略が他のデータ選択方法を上回り、既存のテスト時間スケーリングアプローチよりも高い精度の向上をもたらすことが明らかになります。

要約(オリジナル)

Reasoning has substantially improved the performance of large language models (LLMs) on complicated tasks. Central to the current reasoning studies, Process Reward Models (PRMs) offer a fine-grained evaluation of intermediate reasoning steps and guide the reasoning process. However, extending PRMs to multimodal large language models (MLLMs) introduces challenges. Since multimodal reasoning covers a wider range of tasks compared to text-only scenarios, the resulting distribution shift from the training to testing sets is more severe, leading to greater generalization difficulty. Training a reliable multimodal PRM, therefore, demands large and diverse datasets to ensure sufficient coverage. However, current multimodal reasoning datasets suffer from a marked quality imbalance, which degrades PRM performance and highlights the need for an effective data selection strategy. To address the issues, we introduce DreamPRM, a domain-reweighted training framework for multimodal PRMs which employs bi-level optimization. In the lower-level optimization, DreamPRM performs fine-tuning on multiple datasets with domain weights, allowing the PRM to prioritize high-quality reasoning signals and alleviating the impact of dataset quality imbalance. In the upper-level optimization, the PRM is evaluated on a separate meta-learning dataset; this feedback updates the domain weights through an aggregation loss function, thereby improving the generalization capability of trained PRM. Extensive experiments on multiple multimodal reasoning benchmarks covering both mathematical and general reasoning show that test-time scaling with DreamPRM consistently improves the performance of state-of-the-art MLLMs. Further comparisons reveal that DreamPRM’s domain-reweighting strategy surpasses other data selection methods and yields higher accuracy gains than existing test-time scaling approaches.

arxiv情報

著者 Qi Cao,Ruiyi Wang,Ruiyi Zhang,Sai Ashish Somayajula,Pengtao Xie
発行日 2025-05-26 17:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning はコメントを受け付けていません