Biased AI can Influence Political Decision-Making

要約

現代の大規模な言語モデル(LLM)が日常のタスクに不可欠になるにつれて、それらの固有のバイアスに関する懸念と、人間の意思決定への潜在的な影響が現れています。
モデルのバイアスは十分に文書化されていますが、これらのバイアスが人間の決定にどのように影響するかについてはあまり知られていません。
この論文では、LLMSにおける党派的なバイアスが政治的意見と意思決定に及ぼす影響を調査する2つのインタラクティブな実験を提示します。
参加者は、これらのタスクを完了しながら、偏ったリベラル、偏った保守的、または公平な制御モデルのいずれかと自由にやり取りしました。
党派の偏ったモデルにさらされた参加者は、意見を採用し、LLMのバイアスに合った決定を下す可能性が非常に高いことがわかりました。
さらに驚くべきことに、この影響は、参加者のモデルバイアスと個人的な政治的党派性が反対だったときに見られました。
しかし、AIの事前知識は、バイアスの影響の減少と弱く相関していることを発見し、バイアス効果の堅牢な緩和のためのAI教育の重要性の可能性を強調しました。
私たちの調査結果は、偏ったLLMと相互作用することの重要な影響と、公共の言説や政治的行動に影響を与える能力を強調するだけでなく、将来のこれらのリスクを緩和するための潜在的な技術を強調しています。

要約(オリジナル)

As modern large language models (LLMs) become integral to everyday tasks, concerns about their inherent biases and their potential impact on human decision-making have emerged. While bias in models are well-documented, less is known about how these biases influence human decisions. This paper presents two interactive experiments investigating the effects of partisan bias in LLMs on political opinions and decision-making. Participants interacted freely with either a biased liberal, biased conservative, or unbiased control model while completing these tasks. We found that participants exposed to partisan biased models were significantly more likely to adopt opinions and make decisions which matched the LLM’s bias. Even more surprising, this influence was seen when the model bias and personal political partisanship of the participant were opposite. However, we also discovered that prior knowledge of AI was weakly correlated with a reduction of the impact of the bias, highlighting the possible importance of AI education for robust mitigation of bias effects. Our findings not only highlight the critical effects of interacting with biased LLMs and its ability to impact public discourse and political conduct, but also highlights potential techniques for mitigating these risks in the future.

arxiv情報

著者 Jillian Fisher,Shangbin Feng,Robert Aron,Thomas Richardson,Yejin Choi,Daniel W. Fisher,Jennifer Pan,Yulia Tsvetkov,Katharina Reinecke
発行日 2025-06-05 15:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | コメントする

TreeRPO: Tree Relative Policy Optimization

要約

大規模な言語モデル(LLM)は、検証可能な報酬(RLVR)方法による強化学習を通じて、顕著な推論能力を示しています。
ただし、既存のアプローチの重要な制限は、完全な軌道レベルで定義された報酬が、推論プロセスの中間ステップを最適化するための不十分なガイダンスを提供することです。
これに対処するために、ツリーサンプリングを使用したさまざまな推論ステップでの報酬の数学的期待を推定する新しい方法である\ textBf {\ name}を紹介します。
別のステップ報酬モデルに依存する以前の方法とは異なり、\ nameはこのサンプリングプロセスを通じてこれらの報酬を直接推定します。
GRPOのグループ相関報酬トレーニングメカニズムに基づいて、\ Nameは、ツリーサンプリング中に生成されたステップレベルグループに基づいて革新的に報酬を計算します。
この進歩により、\名はきめ細かい報酬信号を生成することができ、LLMの学習プロセスと全体的なパフォーマンスを大幅に向上させることができます。
実験結果は、\ Nameアルゴリズムがテストベンチマーク上のQWEN-2.5-MATHの平均パス@1精度を大幅に改善し、19.0 \%から35.5 \%に増加することを示しています。
さらに、\名はパフォーマンスでGRPOを2.9%上回ると同時に平均応答長を18.1 \%削減し、その有効性と効率を紹介します。
私たちのコードは、\ href {https://github.com/yangzhch6/treeerpo} {https://github.com/yangzhch6/treerpo}で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable reasoning capabilities through Reinforcement Learning with Verifiable Rewards (RLVR) methods. However, a key limitation of existing approaches is that rewards defined at the full trajectory level provide insufficient guidance for optimizing the intermediate steps of a reasoning process. To address this, we introduce \textbf{\name}, a novel method that estimates the mathematical expectations of rewards at various reasoning steps using tree sampling. Unlike prior methods that rely on a separate step reward model, \name directly estimates these rewards through this sampling process. Building on the group-relative reward training mechanism of GRPO, \name innovatively computes rewards based on step-level groups generated during tree sampling. This advancement allows \name to produce fine-grained and dense reward signals, significantly enhancing the learning process and overall performance of LLMs. Experimental results demonstrate that our \name algorithm substantially improves the average Pass@1 accuracy of Qwen-2.5-Math on test benchmarks, increasing it from 19.0\% to 35.5\%. Furthermore, \name significantly outperforms GRPO by 2.9\% in performance while simultaneously reducing the average response length by 18.1\%, showcasing its effectiveness and efficiency. Our code will be available at \href{https://github.com/yangzhch6/TreeRPO}{https://github.com/yangzhch6/TreeRPO}.

arxiv情報

著者 Zhicheng Yang,Zhijiang Guo,Yinya Huang,Xiaodan Liang,Yiwei Wang,Jing Tang
発行日 2025-06-05 15:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

要約

検索拡張生成(RAG)は、LLMコンテキストにドキュメントの検索を可能にして、より正確で関連性のある応答を提供することにより、大規模な言語モデル(LLM)の能力を高めます。
既存のRAGソリューションでは、実質的に異なるコンテンツを持つ複数のドキュメントを取得する必要があるクエリに焦点を当てていません。
このようなクエリは頻繁に発生しますが、これらのドキュメントの埋め込みが埋め込みスペースに遠くにある可能性があり、それらすべてを取得するのが難しくなる可能性があるため、困難です。
このペーパーでは、このギャップに対処するために設計された新しいスキームであるマルチヘッドラグ(MRAG)を紹介します。これは、デコーダー層の代わりにトランスのマルチヘッド注意層のアクティブ化を、マルチアセプタードキュメントを取得するためのキーとして活性化することです。
駆動観察は、さまざまな注意ヘッドがさまざまなデータの側面をキャプチャすることを学ぶことです。
対応するアクティベーションを活用すると、データ項目やクエリのさまざまなファセットを表す埋め込みが生じ、複雑なクエリの検索精度が向上します。
MRAGの有効性を実証するために、評価方法とメトリック、マルチアスペクトデータセット、および実際のユースケースを提供します。
MRAGの設計上の18のラグベースライン、検索成功率の最大20%の経験的改善、および下流のLLM世代の利点を示しています。
MRAGは、既存のRAGフレームワークやベンチマークとシームレスに統合できます。

要約(オリジナル)

Retrieval Augmented Generation (RAG) enhances the abilities of Large Language Models (LLMs) by enabling the retrieval of documents into the LLM context to provide more accurate and relevant responses. Existing RAG solutions do not focus on queries that may require fetching multiple documents with substantially different contents. Such queries occur frequently, but are challenging because the embeddings of these documents may be distant in the embedding space, making it hard to retrieve them all. This paper introduces Multi-Head RAG (MRAG), a novel scheme designed to address this gap with a simple yet powerful idea: leveraging activations of Transformer’s multi-head attention layer, instead of the decoder layer, as keys for fetching multi-aspect documents. The driving observation is that different attention heads learn to capture different data aspects. Harnessing the corresponding activations results in embeddings that represent various facets of data items and queries, improving the retrieval accuracy for complex queries. We provide an evaluation methodology and metrics, multi-aspect datasets, and real-world use cases to demonstrate MRAG’s effectiveness. We show MRAG’s design advantages over 18 RAG baselines, empirical improvements of up to 20% in retrieval success ratios, and benefits for downstream LLM generation. MRAG can be seamlessly integrated with existing RAG frameworks and benchmarks.

arxiv情報

著者 Maciej Besta,Ales Kubicek,Robert Gerstenberger,Marcin Chrapek,Roman Niggli,Patrik Okanovic,Yi Zhu,Patrick Iff,Michal Podstawski,Lucas Weitzendorf,Mingyuan Chi,Joanna Gajda,Piotr Nyczyk,Jürgen Müller,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-06-05 15:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | コメントする

Counterfactual reasoning: an analysis of in-context emergence

要約

大規模なニューラル言語モデル(LMS)は、コンテキスト内学習において顕著なパフォーマンスを示します。パラメーターの更新なしで、飛行機の入力コンテキストを学習し、推論する能力。
この作業は、言語モデルにおけるコンテキスト内の反事実的推論、つまり、仮説シナリオでの変化の結果を予測するためのコンテキスト内の反事実的推論を研究しています。
明確に定義された合成セットアップの研究に焦点を当てています。正確な予測は、事実の観察からの文脈的ノイズの推測とコピーに基づいているノイズ誘導を必要とする線形回帰タスクです。
言語モデルは、この制御されたセットアップで反事実的な推論が可能であることを示し、広範な機能の反事実的推論がコンテキスト内観察の変換に還元できるという洞察を提供します。
変圧器におけるトレーニング前のドライブパフォーマンスにおいて、自己関節、モデルの深さ、およびデータの多様性が見られます。
さらに興味深いことに、私たちの調査結果は回帰タスクを超えて拡張され、変圧器が連続データにノイズ誘導を実行できることを示しており、反事実的なストーリー生成の可能性に関する予備的な証拠を提供します。
私たちのコードは、https://github.com/moxmiller/counterfactual-rasinoning.gitで入手できます。

要約(オリジナル)

Large-scale neural language models (LMs) exhibit remarkable performance in in-context learning: the ability to learn and reason the input context on the fly without parameter update. This work studies in-context counterfactual reasoning in language models, that is, to predict the consequences of changes under hypothetical scenarios. We focus on studying a well-defined synthetic setup: a linear regression task that requires noise abduction, where accurate prediction is based on inferring and copying the contextual noise from factual observations. We show that language models are capable of counterfactual reasoning in this controlled setup and provide insights that counterfactual reasoning for a broad class of functions can be reduced to a transformation on in-context observations; we find self-attention, model depth, and data diversity in pre-training drive performance in Transformers. More interestingly, our findings extend beyond regression tasks and show that Transformers can perform noise abduction on sequential data, providing preliminary evidence on the potential for counterfactual story generation. Our code is available under https://github.com/moXmiller/counterfactual-reasoning.git .

arxiv情報

著者 Moritz Miller,Bernhard Schölkopf,Siyuan Guo
発行日 2025-06-05 16:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.ST, stat.TH | コメントする

One Wave To Explain Them All: A Unifying Perspective On Feature Attribution

要約

機能の属性方法は、モデルの決定に影響を与える入力機能を識別することにより、深いニューラルネットワークの透明性を改善することを目的としています。
ピクセルベースのヒートマップは、画像、オーディオ表現、ボリュームなどの高次元の入力に特徴を帰属させる標準となっています。
直感的で便利ですが、これらのピクセルベースの属性は、データの基礎となる構造をキャプチャできません。
さらに、コンピューティング属性のドメインの選択はしばしば見落とされています。
この作業は、ウェーブレットドメインが有益で意味のある帰属を可能にすることを示しています。
入力ディメンションを処理し、属性を特徴とする統一アプローチを提供します。
私たちの方法であるウェーブレット属性法(WAM)は、ウェーブレット係数の空間的およびスケール局在化された特性を活用して、モデルの意思決定プロセスの場所と内容の両方をキャプチャする説明を提供します。
WAMは、オーディオ、画像、ボリュームなど、複数のモダリティにわたって既存の勾配ベースのメソッドと一致したり、アウトパフォームしたりすることを示します。
さらに、Modelの堅牢性と透明性のより広い側面を備えたWAMブリッジズの帰属方法について説明します。
プロジェクトページ:https://gabrielkasmi.github.io/wam/

要約(オリジナル)

Feature attribution methods aim to improve the transparency of deep neural networks by identifying the input features that influence a model’s decision. Pixel-based heatmaps have become the standard for attributing features to high-dimensional inputs, such as images, audio representations, and volumes. While intuitive and convenient, these pixel-based attributions fail to capture the underlying structure of the data. Moreover, the choice of domain for computing attributions has often been overlooked. This work demonstrates that the wavelet domain allows for informative and meaningful attributions. It handles any input dimension and offers a unified approach to feature attribution. Our method, the Wavelet Attribution Method (WAM), leverages the spatial and scale-localized properties of wavelet coefficients to provide explanations that capture both the where and what of a model’s decision-making process. We show that WAM quantitatively matches or outperforms existing gradient-based methods across multiple modalities, including audio, images, and volumes. Additionally, we discuss how WAM bridges attribution with broader aspects of model robustness and transparency. Project page: https://gabrielkasmi.github.io/wam/

arxiv情報

著者 Gabriel Kasmi,Amandine Brunetto,Thomas Fel,Jayneel Parekh
発行日 2025-06-05 16:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | コメントする

Unleashing The Power of Pre-Trained Language Models for Irregularly Sampled Time Series

要約

ChatGPTなどの事前に訓練された言語モデル(PLMS)は、自然言語処理の分野を大幅に進めています。
この進歩は、PLMSの時系列分析への適応を探求する一連の革新的な研究に影響を与え、さまざまな時系列分析タスクに対処する統一された基礎モデルを作成することを目的としています。
ただし、これらの取り組みは、主に定期的にサンプリングされた時系列(RSTS)に焦点を当てており、不均一なサンプリング間隔と一般的な欠落データを特徴とする不規則にサンプリングされた時系列(IST)によってもたらされる固有の課題を無視しています。
このギャップを埋めるために、この作業は、ISTS分析のためのPLMSの可能性を調査するための第一歩を踏み出します。
まず、ISTを表現するためのさまざまな方法の効果を調査し、分析におけるPLMSの有効性を最大化することを目指しています。
さらに、ISTS-PLMという名前の統一されたPLMベースのフレームワークを提案して、多様なISTS分析タスクに対処します。
ISTSでの扱いにくい時間内およびインタータイムシリーズモデリングに取り組むように調整された、新しい時間認識と可変のPLMSを統合します。
最後に、包括的なベンチマークでの広範な実験は、ISTSの構造化された効果的なシリーズベースの表現を利用しているISTS-PLMが、分類、補間、外挿、外挿、少数のショット、ゼロショット学習シナリオなど、分類、補間、外挿、ゼロショット学習など、さまざまな分析タスクにわたって一貫して最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Pre-trained Language Models (PLMs), such as ChatGPT, have significantly advanced the field of natural language processing. This progress has inspired a series of innovative studies that explore the adaptation of PLMs to time series analysis, intending to create a unified foundation model that addresses various time series analytical tasks. However, these efforts predominantly focus on Regularly Sampled Time Series (RSTS), neglecting the unique challenges posed by Irregularly Sampled Time Series (ISTS), which are characterized by uneven sampling intervals and prevalent missing data. To bridge this gap, this work takes the first step in exploring the potential of PLMs for ISTS analysis. We begin by investigating the effect of various methods for representing ISTS, aiming to maximize the efficacy of PLMs in the analysis. Furthermore, we propose a unified PLM-based framework, named ISTS-PLM, to address diverse ISTS analytical tasks. It integrates novel time-aware and variable-aware PLMs tailored to tackle the intractable intra- and inter-time series modeling in ISTS. Finally, extensive experiments on a comprehensive benchmark demonstrate that the ISTS-PLM, utilizing a structured and effective series-based representation for ISTS, consistently achieves state-of-the-art performance across various analytical tasks, such as classification, interpolation, extrapolation, few-shot and zero-shot learning scenarios, spanning scientific domains like healthcare, biomechanics, and climate science.

arxiv情報

著者 Weijia Zhang,Chenlong Yin,Hao Liu,Hui Xiong
発行日 2025-06-05 16:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.AP | コメントする

Intentionally Unintentional: GenAI Exceptionalism and the First Amendment

要約

この論文は、GPT-4やGeminiなどの大規模な生成AIモデルからの出力に対して、裁判所が修正第1条の保護を付与すべきであるという仮定に挑戦しています。
これらのモデルは意図性を欠いているため、確立された法的先例の文脈で理解されるように、その出力はスピーチを構成しないため、保護するスピーチはありえないと主張します。
さらに、モデル出力がスピーチではない場合、ユーザーは出力を受信するための修正第1条のスピーチ権を請求することはできません。
また、AIモデルへの修正第1条の権利を拡大することは、アイデアの市場を促進したり、自治の促進、自己表現を促進するなど、言論の自由の基本的な目的に役立たないと主張しています。
実際、AIモデルに最初の修正保護を付与することは、これらの強力な技術を効果的に規制する政府の能力を妨げ、誤報やその他の害の未確認の広がりにつながる可能性があるため、社会にとって有害で​​す。

要約(オリジナル)

This paper challenges the assumption that courts should grant First Amendment protections to outputs from large generative AI models, such as GPT-4 and Gemini. We argue that because these models lack intentionality, their outputs do not constitute speech as understood in the context of established legal precedent, so there can be no speech to protect. Furthermore, if the model outputs are not speech, users cannot claim a First Amendment speech right to receive the outputs. We also argue that extending First Amendment rights to AI models would not serve the fundamental purposes of free speech, such as promoting a marketplace of ideas, facilitating self-governance, or fostering self-expression. In fact, granting First Amendment protections to AI models would be detrimental to society because it would hinder the government’s ability to regulate these powerful technologies effectively, potentially leading to the unchecked spread of misinformation and other harms.

arxiv情報

著者 David Atkinson,Jena D. Hwang,Jacob Morrison
発行日 2025-06-05 16:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | コメントする

LLM-First Search: Self-Guided Exploration of the Solution Space

要約

大規模な言語モデル(LLMS)は、多くの場合、問題解決を検索プロセスとしてフレーミングすることにより、テスト時間計算の増加により、推論と計画の顕著な改善を実証しています。
モンテカルロツリー検索(MCTS)のような方法はいくつかのドメインで効果的であることが証明されていますが、固定探査ハイパーパラメータへの依存により、さまざまな難易度のタスク全体に適応性が制限され、特定の設定では非実用的または高価になります。
この論文では、\ textbf {llm-first search(lfs)}を提案します。これは、自己誘導探索を介して検索プロセスを自律的に制御できるように、事前定義された検索戦略の必要性を削除する、新しい\ textit {llm self-gided search}メソッドです。
LLMは、外部のヒューリスティックまたはハードコードされたポリシーに依存するのではなく、現在の検索パスを追求するか、内部スコアリングメカニズムに基づいて代替ブランチを探索するかを評価します。
これにより、手動のチューニングやタスク固有の適応を必要とせずに、より柔軟でコンテキストに敏感な推論が可能になります。
カウントダウンのLFSを、3つのクラシックに広く使用されている検索アルゴリズム、ツリーオブオブセーブの幅の最初の検索(TOT-BFS)、ベストファースト検索(BESTFS)、およびMCTに対してLFSを評価します。これらは、それぞれが、困難な推論の範囲でSOTA結果を達成するために使用されています。
LFS(1)は、追加のチューニングなしでより挑戦的なタスクでパフォーマンスを向上させることがわかりました。(2)他のメソッドと比較して、特に強力なモデルで駆動される場合、(3)LLMファーストデザインのため、より強力なモデルでより良いスケーリングを行うことがわかりました。
私たちのコードは、\ href {https://github.com/nathanherr/llm-first-search} {llm-first-search}で公開されています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable improvements in reasoning and planning through increased test-time compute, often by framing problem-solving as a search process. While methods like Monte Carlo Tree Search (MCTS) have proven effective in some domains, their reliance on fixed exploration hyperparameters limits their adaptability across tasks of varying difficulty, rendering them impractical or expensive in certain settings. In this paper, we propose \textbf{LLM-First Search (LFS)}, a novel \textit{LLM Self-Guided Search} method that removes the need for pre-defined search strategies by empowering the LLM to autonomously control the search process via self-guided exploration. Rather than relying on external heuristics or hardcoded policies, the LLM evaluates whether to pursue the current search path or explore alternative branches based on its internal scoring mechanisms. This enables more flexible and context-sensitive reasoning without requiring manual tuning or task-specific adaptation. We evaluate LFS on Countdown and Sudoku against three classic widely-used search algorithms, Tree-of-Thoughts’ Breadth First Search (ToT-BFS), Best First Search (BestFS), and MCTS, each of which have been used to achieve SotA results on a range of challenging reasoning tasks. We found that LFS (1) performs better on more challenging tasks without additional tuning, (2) is more computationally efficient compared to the other methods, especially when powered by a stronger model, (3) scales better with stronger models, due to its LLM-First design, and (4) scales better with increased compute budget. Our code is publicly available at \href{https://github.com/NathanHerr/LLM-First-Search}{LLM-First-Search}.

arxiv情報

著者 Nathan Herr,Tim Rocktäschel,Roberta Raileanu
発行日 2025-06-05 16:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Mitigating Degree Bias Adaptively with Hard-to-Learn Nodes in Graph Contrastive Learning

要約

グラフニューラルネットワーク(GNNS)は、多くの場合、ノード分類タスクの程度のバイアスに悩まされます。この場合、予測のパフォーマンスは程度が異なるノード間で異なります。
グラフ対照学習(GCL)を採用するいくつかのアプローチが、このバイアスを軽減するために提案されています。
ただし、GCLのすべてのポジティブおよびネガの限られた数のポジティブペアと等しい重み付けは、依然として不十分でノイズの多い情報を取得する低級ノードにつながります。
このペーパーでは、硬度適応性のある再重弁(HAR)の対照的な損失を緩和することを提案します。
ノードラベルを活用し、学習の硬度に基づいて正のペアとネガティブペアを適応的に重み付けすることにより、より正のペアを追加します。
さらに、Sharpという名前の実験的なフレームワークを開発して、HARをより広範なシナリオに拡張します。
理論分析と実験の両方が、シャープの有効性を検証します。
4つのデータセットにわたる実験結果は、Sharpがグローバルレベルと学位レベルの両方でベースラインに対してより良いパフォーマンスを達成することを示しています。

要約(オリジナル)

Graph Neural Networks (GNNs) often suffer from degree bias in node classification tasks, where prediction performance varies across nodes with different degrees. Several approaches, which adopt Graph Contrastive Learning (GCL), have been proposed to mitigate this bias. However, the limited number of positive pairs and the equal weighting of all positives and negatives in GCL still lead to low-degree nodes acquiring insufficient and noisy information. This paper proposes the Hardness Adaptive Reweighted (HAR) contrastive loss to mitigate degree bias. It adds more positive pairs by leveraging node labels and adaptively weights positive and negative pairs based on their learning hardness. In addition, we develop an experimental framework named SHARP to extend HAR to a broader range of scenarios. Both our theoretical analysis and experiments validate the effectiveness of SHARP. The experimental results across four datasets show that SHARP achieves better performance against baselines at both global and degree levels.

arxiv情報

著者 Jingyu Hu,Hongbo Bo,Jun Hong,Xiaowei Liu,Weiru Liu
発行日 2025-06-05 16:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

The Lessons of Developing Process Reward Models in Mathematical Reasoning

要約

プロセス報酬モデル(PRM)は、推論プロセスで中間エラーを特定して軽減することを目的とした、大規模な言語モデル(LLM)の数学的推論におけるプロセス監督のための有望なアプローチとして現れます。
ただし、効果的なPRMSの開発は、特にデータアノテーションと評価方法論において、重大な課題に直面しています。
この論文では、広範な実験を通じて、PRMSの一般的に使用されるモンテカルロ(MC)推定ベースのデータ合成は、通常、LLM-As-a-a-judgeおよび人間の注釈法と比較して劣ったパフォーマンスと一般化をもたらすことを実証します。
MC推定は、現在の段階の正確性を評価するために完了モデルに依存しており、不正確なステップ検証につながります。
さらに、PRMSの従来のベスト-N(Bon)評価戦略の潜在的なバイアスを特定します。(1)信頼性の低いポリシーモデルは、正解と欠陥のあるプロセスで応答を生成し、BONの評価基準とPRMのプロセス検証の目的との間の不整列につながります。
(2)そのような応答のPRMSの耐性は、膨らんだボンスコアにつながります。
(3)既存のPRMSには、最終的な回答ステップに集中した最小スコアのかなりの割合があり、BON最適化されたPRMSのプロセスに基づく評価への移行が明らかになりました。
これらの課題に対処するために、MC推定をLLM-A-A-Judgeと効果的に統合するコンセンサスフィルタリングメカニズムを開発し、応答レベルとステップレベルのメトリックを組み合わせたより包括的な評価フレームワークを提唱します。
メカニズムに基づいて、Bon評価のモデルパフォーマンスとデータ効率と段階的なエラー識別タスクの両方を大幅に改善します。
最後に、既存のオープンソースの代替案よりも優れた新しい最先端のPRMをリリースし、構築プロセス監督モデルの将来の研究のための実用的なガイドラインを提供します。

要約(オリジナル)

Process Reward Models (PRMs) emerge as a promising approach for process supervision in mathematical reasoning of Large Language Models (LLMs), which aim to identify and mitigate intermediate errors in the reasoning processes. However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies. In this paper, through extensive experiments, we demonstrate that commonly used Monte Carlo (MC) estimation-based data synthesis for PRMs typically yields inferior performance and generalization compared to LLM-as-a-judge and human annotation methods. MC estimation relies on completion models to evaluate current-step correctness, leading to inaccurate step verification. Furthermore, we identify potential biases in conventional Best-of-N (BoN) evaluation strategies for PRMs: (1) The unreliable policy models generate responses with correct answers but flawed processes, leading to a misalignment between the evaluation criteria of BoN and the PRM objectives of process verification. (2) The tolerance of PRMs of such responses leads to inflated BoN scores. (3) Existing PRMs have a significant proportion of minimum scores concentrated on the final answer steps, revealing the shift from process to outcome-based assessment in BoN Optimized PRMs. To address these challenges, we develop a consensus filtering mechanism that effectively integrates MC estimation with LLM-as-a-judge and advocates a more comprehensive evaluation framework that combines response-level and step-level metrics. Based on the mechanisms, we significantly improve both model performance and data efficiency in the BoN evaluation and the step-wise error identification task. Finally, we release a new state-of-the-art PRM that outperforms existing open-source alternatives and provides practical guidelines for future research in building process supervision models.

arxiv情報

著者 Zhenru Zhang,Chujie Zheng,Yangzhen Wu,Beichen Zhang,Runji Lin,Bowen Yu,Dayiheng Liu,Jingren Zhou,Junyang Lin
発行日 2025-06-05 16:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする