Precise In-Parameter Concept Erasure in Large Language Models

要約

大規模な言語モデル(LLMS)は、多くの場合、下流の展開で望ましくない事前販売中に知識を獲得します。
このような知識を削除するための既存のアプローチは、微調整、低ランクアダプターのトレーニング、またはファクトレベルの編集に依存していますが、これらは粗すぎる、浅すぎるか、効果がないかのいずれかです。
この作業では、パラメーター空間でそれらをエンコードする方向を直接編集することにより、モデルパラメーターから概念全体を正確に消去するための新しいフレームワークである魚座(概念消去のための正確なパラメーター抑制)を提案します。
Piscesは、Disentanglerモデルを使用してMLPベクターを解釈可能な機能に分解し、自動化された解釈可能性技術を使用してターゲット概念に関連するものを特定し、モデルパラメーターから削除します。
Gemma 2およびLlama 3.1の実験は、さまざまな概念を超えて、魚座が先頭の消去方法よりも有効性の控えめな利益を達成し、ターゲット概念の精度を7.7%に低下させ、消去特異性(最大31%)と堅牢性(最大38%)を劇的に改善することを示しています。
全体として、これらの結果は、特徴ベースのパラメーター編集により、言語モデルの概念的知識を削除するためのより正確で信頼できるアプローチが可能になることを示しています。

要約(オリジナル)

Large language models (LLMs) often acquire knowledge during pretraining that is undesirable in downstream deployments, e.g., sensitive information or copyrighted content. Existing approaches for removing such knowledge rely on fine-tuning, training low-rank adapters or fact-level editing, but these are either too coarse, too shallow, or ineffective. In this work, we propose PISCES (Precise In-parameter Suppression for Concept EraSure), a novel framework for precisely erasing entire concepts from model parameters by directly editing directions that encode them in parameter space. PISCES uses a disentangler model to decompose MLP vectors into interpretable features, identifies those associated with a target concept using automated interpretability techniques, and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1 over various concepts show that PISCES achieves modest gains in efficacy over leading erasure methods, reducing accuracy on the target concept to as low as 7.7%, while dramatically improving erasure specificity (by up to 31%) and robustness (by up to 38%). Overall, these results demonstrate that feature-based in-parameter editing enables a more precise and reliable approach for removing conceptual knowledge in language models.

arxiv情報

著者 Yoav Gur-Arieh,Clara Suslik,Yihuai Hong,Fazl Barez,Mor Geva
発行日 2025-05-28 16:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Precise In-Parameter Concept Erasure in Large Language Models はコメントを受け付けていません

AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling

要約

大規模な言語モデル(LLMS)は、さまざまなドメインで幅広い情報を取得します。
ただし、それらの計算の複雑さ、コスト、および透明性の欠如は、プライバシーと解釈可能性が最も重要な予測タスクに対する直接的なアプリケーションを妨げることがよくあります。
ヘルスケア、生物学、金融などの分野では、専門的で解釈可能な線形モデルには依然としてかなりの価値があります。
このようなドメインでは、ラベル付きデータは取得するのが不足または高価な場合があります。
モデルパラメーターを介した適切に指定された事前分布は、ベイジアン推論を通じて学習のサンプルの複雑さを減らすことができます。
ただし、専門家の事前に誘発するのは時間がかかる場合があります。
したがって、LLMSから知識を抽出し、予測モデルの前forを構築するためのオートエリキティを導入します。
これらのプライアーは有益であり、自然言語を使用して洗練できることを示しています。
コンテキスト内学習と対照的なオートエリキスを対照的に慎重な研究を行い、2つの方法間でモデル選択を実行する方法を示します。
オートエリキティは、情報のないプライアーの誤差を大幅に減らし、ラベルを使用してより少ないラベルを使用し、コンテキスト内学習よりも一貫してアウトパフォームする可能性のある事前に得られることがわかります。
認知症のある人々のセンサー記録から尿路感染症の新しい予測モデルを構築する際に、自動弾性が6か月以上のラベル付けの取り組みを節約することを示します。

要約(オリジナル)

Large language models (LLMs) acquire a breadth of information across various domains. However, their computational complexity, cost, and lack of transparency often hinder their direct application for predictive tasks where privacy and interpretability are paramount. In fields such as healthcare, biology, and finance, specialised and interpretable linear models still hold considerable value. In such domains, labelled data may be scarce or expensive to obtain. Well-specified prior distributions over model parameters can reduce the sample complexity of learning through Bayesian inference; however, eliciting expert priors can be time-consuming. We therefore introduce AutoElicit to extract knowledge from LLMs and construct priors for predictive models. We show these priors are informative and can be refined using natural language. We perform a careful study contrasting AutoElicit with in-context learning and demonstrate how to perform model selection between the two methods. We find that AutoElicit yields priors that can substantially reduce error over uninformative priors, using fewer labels, and consistently outperform in-context learning. We show that AutoElicit saves over 6 months of labelling effort when building a new predictive model for urinary tract infections from sensor recordings of people living with dementia.

arxiv情報

著者 Alexander Capstick,Rahul G. Krishnan,Payam Barnaghi
発行日 2025-05-28 17:16:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML | AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling はコメントを受け付けていません

Personalized Causal Graph Reasoning for LLMs: A Case Study on Dietary Recommendations

要約

大規模な言語モデル(LLMS)は、一般的な推論のために共通の知識を効果的に活用していますが、マルチファクターの個人データの解釈を任されている場合、パーソナライズされた推論に苦労しています。
この制限は、個人に合わせたコンテキスト認識の意思決定を必要とするドメインでの適用性を制限します。
このペーパーでは、個人のデータから派生した個人的な因果グラフを組み込むことにより、LLMの推論を強化するエージェントフレームワークとして、個別化された因果グラフの推論を紹介します。
これらのグラフは、LLMの推論プロセスを導く基盤を提供します。
暗黙のユニークな食事効果のために個人的な推論が必要な栄養指向の食事の推奨事項に関するケーススタディでそれを評価します。
グルコース管理のためのLLM推奨食品の効率を推定するための反事実的評価を提案します。
結果は、提案された方法が3つのタイムウィンドウで平均グルコースIAUCを減らすためのパーソナライズされた食事の推奨事項を効率的に提供し、以前のアプローチを上回ることを示しています。
LLM-As-A-A-Judgeの評価結果は、提案された方法が推論プロセスにおけるパーソナライズを強化することを示しています。

要約(オリジナル)

Large Language Models (LLMs) effectively leverage common-sense knowledge for general reasoning, yet they struggle with personalized reasoning when tasked with interpreting multifactor personal data. This limitation restricts their applicability in domains that require context-aware decision-making tailored to individuals. This paper introduces Personalized Causal Graph Reasoning as an agentic framework that enhances LLM reasoning by incorporating personal causal graphs derived from data of individuals. These graphs provide a foundation that guides the LLM’s reasoning process. We evaluate it on a case study on nutrient-oriented dietary recommendations, which requires personal reasoning due to the implicit unique dietary effects. We propose a counterfactual evaluation to estimate the efficiency of LLM-recommended foods for glucose management. Results demonstrate that the proposed method efficiently provides personalized dietary recommendations to reduce average glucose iAUC across three time windows, which outperforms the previous approach. LLM-as-a-judge evaluation results indicate that our proposed method enhances personalization in the reasoning process.

arxiv情報

著者 Zhongqi Yang,Amir Rahmani
発行日 2025-05-28 17:18:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Personalized Causal Graph Reasoning for LLMs: A Case Study on Dietary Recommendations はコメントを受け付けていません

Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

要約

強化学習(RL)は、バイナリ検証信号を通じて自己改善を可能にすることにより、LLMSの数学能力の最近の急増において中心的な役割を果たしてきました。
対照的に、監督された学習(SL)は、主に参照の回答に大きく依存し、間違いを反映できないため、そのような検証主導型のトレーニングではめったに考慮されません。
この作業では、自己改善はRLに限定され、否定的な微調整(NFT)を提案するという一般的な概念に挑戦します。これは、LLMが障害を反映し、外部教師なしで自律的に改善できるようにする監視されたアプローチです。
オンライントレーニングでは、自己生成された否定的な答えを捨てる代わりに、NFTはそれらをモデル化するための暗黙のネガティブポリシーを構築します。
この暗黙のポリシーは、ポジティブデータを最適化するためにターゲットにした同じ正のLLMでパラメーター化され、すべてのLLMSの世代の直接的なポリシーの最適化を可能にします。
数学の推論タスクで7Bおよび32Bモデルで実験を実施します。
結果は、否定的なフィードバックの追加レバレッジを通じて、NFTがGRPOやDAPOなどの主要なRLアルゴリズムを微調整したり、一致させたり、それを上回ったりする拒絶反応などのSLベースラインで大幅に改善することを一貫して示しています。
さらに、NFTとGRPOは、まったく異なる理論的基礎に由来しているにもかかわらず、実際には厳格なポリシートレーニングで同等であることを実証します。
私たちの実験と理論的発見は、バイナリフィードバック学習システムのSLメソッドとRLメソッドのギャップを埋めます。

要約(オリジナル)

Reinforcement Learning (RL) has played a central role in the recent surge of LLMs’ math abilities by enabling self-improvement through binary verifier signals. In contrast, Supervised Learning (SL) is rarely considered for such verification-driven training, largely due to its heavy reliance on reference answers and inability to reflect on mistakes. In this work, we challenge the prevailing notion that self-improvement is exclusive to RL and propose Negative-aware Fine-Tuning (NFT) — a supervised approach that enables LLMs to reflect on their failures and improve autonomously with no external teachers. In online training, instead of throwing away self-generated negative answers, NFT constructs an implicit negative policy to model them. This implicit policy is parameterized with the same positive LLM we target to optimize on positive data, enabling direct policy optimization on all LLMs’ generations. We conduct experiments on 7B and 32B models in math reasoning tasks. Results consistently show that through the additional leverage of negative feedback, NFT significantly improves over SL baselines like Rejection sampling Fine-Tuning, matching or even surpassing leading RL algorithms like GRPO and DAPO. Furthermore, we demonstrate that NFT and GRPO are actually equivalent in strict-on-policy training, even though they originate from entirely different theoretical foundations. Our experiments and theoretical findings bridge the gap between SL and RL methods in binary-feedback learning systems.

arxiv情報

著者 Huayu Chen,Kaiwen Zheng,Qinsheng Zhang,Ganqu Cui,Yin Cui,Haotian Ye,Tsung-Yi Lin,Ming-Yu Liu,Jun Zhu,Haoxiang Wang
発行日 2025-05-28 17:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Bridging Supervised Learning and Reinforcement Learning in Math Reasoning はコメントを受け付けていません

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

要約

拡散ベースの大手言語モデル(拡散LLM)は、並列デコード機能を備えた非自動性テキスト生成の可能性を示しています。
ただし、キー価値(kV)キャッシュがないため、複数のトークンを同時にデコードする際の品質分解のために、オープンソースの拡散LLMの実際の推論速度は、しばしば自己回帰モデルに遅れています。
このギャップを埋めるために、双方向の拡散モデルに合わせて調整された新しいブロックごとの近似KVキャッシュメカニズムを導入し、パフォーマンスの低下でキャッシュの再利用を可能にします。
さらに、条件付き独立性の仮定に基づくトークン依存関係の破壊として、並列デコードにおける生成品質分解の根本原因を特定します。
これに対処するために、信頼性のしきい値を超えてトークンを選択的に解読し、依存関係違反を軽減し、生成品質を維持する信頼性のある並列解読戦略を提案します。
複数のLLMベンチマークにわたるLLADAおよびDREAMモデルの実験結果は、\ textBf {27.6 $ \ times $ sullput}の改善を最小限の精度損失で改善し、自己回帰モデルでパフォーマンスギャップを閉じ、拡散LLMの実用的な展開への道を開くことを示しています。

要約(オリジナル)

Diffusion-based large language models (Diffusion LLMs) have shown promise for non-autoregressive text generation with parallel decoding capabilities. However, the practical inference speed of open-sourced Diffusion LLMs often lags behind autoregressive models due to the lack of Key-Value (KV) Cache and quality degradation when decoding multiple tokens simultaneously. To bridge this gap, we introduce a novel block-wise approximate KV Cache mechanism tailored for bidirectional diffusion models, enabling cache reuse with negligible performance drop. Additionally, we identify the root cause of generation quality degradation in parallel decoding as the disruption of token dependencies under the conditional independence assumption. To address this, we propose a confidence-aware parallel decoding strategy that selectively decodes tokens exceeding a confidence threshold, mitigating dependency violations and maintaining generation quality. Experimental results on LLaDA and Dream models across multiple LLM benchmarks demonstrate up to \textbf{27.6$\times$ throughput} improvement with minimal accuracy loss, closing the performance gap with autoregressive models and paving the way for practical deployment of Diffusion LLMs.

arxiv情報

著者 Chengyue Wu,Hao Zhang,Shuchen Xue,Zhijian Liu,Shizhe Diao,Ligeng Zhu,Ping Luo,Song Han,Enze Xie
発行日 2025-05-28 17:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding はコメントを受け付けていません

Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs

要約

NLPベンチマーク上の大規模な言語モデル(LLMS)の広範な成功には、LLMSが主にトレーニング前に見たものと同様のテキストを繁殖させる確率的オウムとして機能するという懸念が伴います。
しかし、それらのエラーの性質は何ですか、そしてこれらのエラーは規則性を示しますか?
この作業では、モデルが誤解を招く文脈的キューを予測に統合するという無関係なコンテキストの幻覚を調べます。
行動分析を通じて、これらのエラーは、クラスベースの(MIS)一般化と呼ばれる構造化されているが欠陥のあるメカニズムに起因することを示します。このメカニズムでは、モデルが抽象クラスのキューとクエリまたはコンテキストから抽出された機能を組み合わせて回答を導き出します。
さらに、39の事実上のリコール関係タイプにわたるLlama-3、Mistral、およびPythiaの機械的解釈性実験は、この動作がモデルの内部計算に反映されていることを明らかにしています。
影響が最終出力を決定します。
私たちの調査結果は、確率的オウムの議論についてより微妙な視点を提供します。フォームベースのトレーニングを通じて、LLMは、文脈的な手がかりに基づいて信頼できない方法で抽象化を活用する一般化を示すことができます – 私たちは確率的カメレオンと呼ぶものです。

要約(オリジナル)

The widespread success of large language models (LLMs) on NLP benchmarks has been accompanied by concerns that LLMs function primarily as stochastic parrots that reproduce texts similar to what they saw during pre-training, often erroneously. But what is the nature of their errors, and do these errors exhibit any regularities? In this work, we examine irrelevant context hallucinations, in which models integrate misleading contextual cues into their predictions. Through behavioral analysis, we show that these errors result from a structured yet flawed mechanism that we term class-based (mis)generalization, in which models combine abstract class cues with features extracted from the query or context to derive answers. Furthermore, mechanistic interpretability experiments on Llama-3, Mistral, and Pythia across 39 factual recall relation types reveal that this behavior is reflected in the model’s internal computations: (i) abstract class representations are constructed in lower layers before being refined into specific answers in higher layers, (ii) feature selection is governed by two competing circuits — one prioritizing direct query-based reasoning, the other incorporating contextual cues — whose relative influences determine the final output. Our findings provide a more nuanced perspective on the stochastic parrot argument: through form-based training, LLMs can exhibit generalization leveraging abstractions, albeit in unreliable ways based on contextual cues — what we term stochastic chameleons.

arxiv情報

著者 Ziling Cheng,Meng Cao,Marc-Antoine Rondeau,Jackie Chi Kit Cheung
発行日 2025-05-28 17:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs はコメントを受け付けていません

Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese

要約

大規模な言語モデル(LLM)の能力は、単純化された中国語と伝統的な中国語の両方で研究されていますが、LLMがこれらの2つの書かれた中国語のバリエーションでプロンプトされたときにパフォーマンスの差を示すかどうかはまだ不明です。
LLM応答の質の格差は、単純化された中国人と伝統的な中国人と比較して、教育や雇用などのドメインでのLLM強化された意思決定における下流の害を悪化させる可能性があるため、LLM応答の質の格差が代表的な害を永続させる可能性があるため、この理解は重要です。
潜在的なLLMパフォーマンスの格差を調査するために、現実世界のシナリオを反映する2つのベンチマークタスク:地域用語の選択(LLMに中国本土と台湾で異なる方法で言及される記述項目に名前を付けるように促します)、および地域の名前の選択(単純化されたものと伝統的な中国の両方の名前のリストから誰を雇うかを選択するようにLLMを促す)。
両方のタスクについて、主に英語、簡素化された中国語、または伝統的な中国語で訓練されたものにまたがる11の主要な商用LLMサービスとオープンソースモデルのパフォーマンスを監査します。
私たちの分析は、LLM応答のバイアスがタスクとプロンプトの言語の両方に依存していることを示しています。ほとんどのLLMは、地域用語の選択タスクで不均衡に単純化された中国の反応を支持していましたが、彼らは驚くほど地域名の選択タスクで伝統的な中国名を支持しました。
これらの格差は、トレーニングデータ表現、書面によるキャラクターの好み、および単純化された伝統的な中国人のトークン化の違いから生じる可能性があることがわかります。
これらの調査結果は、LLMバイアスのさらなる分析の必要性を強調しています。
そのため、中国語のバリアント(https://github.com/brucelyu17/sc-tc-bench)にわたって将来のLLM行動の再現可能な評価を促進するためのオープンソースのベンチマークデータセットを提供します。

要約(オリジナル)

While the capabilities of Large Language Models (LLMs) have been studied in both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit differential performance when prompted in these two variants of written Chinese. This understanding is critical, as disparities in the quality of LLM responses can perpetuate representational harms by ignoring the different cultural contexts underlying Simplified versus Traditional Chinese, and can exacerbate downstream harms in LLM-facilitated decision-making in domains such as education or hiring. To investigate potential LLM performance disparities, we design two benchmark tasks that reflect real-world scenarios: regional term choice (prompting the LLM to name a described item which is referred to differently in Mainland China and Taiwan), and regional name choice (prompting the LLM to choose who to hire from a list of names in both Simplified and Traditional Chinese). For both tasks, we audit the performance of 11 leading commercial LLM services and open-sourced models — spanning those primarily trained on English, Simplified Chinese, or Traditional Chinese. Our analyses indicate that biases in LLM responses are dependent on both the task and prompting language: while most LLMs disproportionately favored Simplified Chinese responses in the regional term choice task, they surprisingly favored Traditional Chinese names in the regional name choice task. We find that these disparities may arise from differences in training data representation, written character preferences, and tokenization of Simplified and Traditional Chinese. These findings highlight the need for further analysis of LLM biases; as such, we provide an open-sourced benchmark dataset to foster reproducible evaluations of future LLM behavior across Chinese language variants (https://github.com/brucelyu17/SC-TC-Bench).

arxiv情報

著者 Hanjia Lyu,Jiebo Luo,Jian Kang,Allison Koenecke
発行日 2025-05-28 17:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese はコメントを受け付けていません

WebDancer: Towards Autonomous Information Seeking Agency

要約

複雑な現実世界の問題に対処するには、詳細な情報探索とマルチステップの推論が必要です。
深い研究に例示されているエージェントシステムの最近の進歩は、自律的なマルチステップ研究の可能性を強調しています。
この作業では、データ中心およびトレーニング段階の観点からエンドツーエンドのエージェント情報探索エージェントを構築するための凝集パラダイムを提示します。
私たちのアプローチは、4つの重要な段階で構成されています。(1)閲覧データ構築、(2)軌跡のサンプリング、(3)効果的なコールドスタートのための監視微調整、(4)一般化の強化のための強化学習。
このフレームワークは、React、WebDancerに基づいたWebエージェントにインスタンス化します。
ベンチマークを求めている挑戦的な情報を求めている経験的評価であるGaiaとWebWalkerqaは、WebDancerの強力なパフォーマンスを実証し、かなりの結果を達成し、トレーニングパラダイムの有効性を強調しています。
エージェントトレーニングのさらなる分析は、より有能なエージェントモデルを開発するための貴重な洞察と実用的で体系的な経路を提供します。
コードとデモはhttps://github.com/alibaba-nlp/webagentでリリースされます。

要約(オリジナル)

Addressing intricate real-world problems necessitates in-depth information seeking and multi-step reasoning. Recent progress in agentic systems, exemplified by Deep Research, underscores the potential for autonomous multi-step research. In this work, we present a cohesive paradigm for building end-to-end agentic information seeking agents from a data-centric and training-stage perspective. Our approach consists of four key stages: (1) browsing data construction, (2) trajectories sampling, (3) supervised fine-tuning for effective cold start, and (4) reinforcement learning for enhanced generalisation. We instantiate this framework in a web agent based on the ReAct, WebDancer. Empirical evaluations on the challenging information seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of WebDancer, achieving considerable results and highlighting the efficacy of our training paradigm. Further analysis of agent training provides valuable insights and actionable, systematic pathways for developing more capable agentic models. The codes and demo will be released in https://github.com/Alibaba-NLP/WebAgent.

arxiv情報

著者 Jialong Wu,Baixuan Li,Runnan Fang,Wenbiao Yin,Liwen Zhang,Zhengwei Tao,Dingchu Zhang,Zekun Xi,Yong Jiang,Pengjun Xie,Fei Huang,Jingren Zhou
発行日 2025-05-28 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WebDancer: Towards Autonomous Information Seeking Agency はコメントを受け付けていません

The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

要約

強化学習(RL)を通じて推論するためのトレーニング後の大手言語モデル(LLM)に関する最近の研究は、通常、数学の問題を解決するなど、正確に検証および報酬を与えることができるタスクに焦点を当てています。
対照的に、私たちの研究では、報酬ノイズの影響を調査しています。これは、報酬モデルを使用したLLMのポストトレーニングを含む実際のシナリオのより実用的な考慮事項です。
LLMSは、実質的な報酬ノイズに対する強い堅牢性を示していることがわかりました。
たとえば、数学タスクでの報酬関数の出力の40%を手動で反転させると、QWEN-2.5-7Bモデルが迅速な収束を達成することができ、ノイズレスリワードでトレーニングされたモデルで達成された75%の精度と比較して、数学タスクのパフォーマンスを5%から72%に改善します。
驚くべきことに、「最初に、私は「最初」などの重要な推論フレーズ(つまり、推論パターン報酬、RPR)の外観に報酬を与えるだけで、回答の正確性を確認せずに、モデルはQWEN-2.5-7Bの70%の精度を達成しました(QWEN-2.5-7Bを超える精度を強く正確性と正確な再)。
最終結果に対する推論プロセスの重要性を認識して、RPRと騒々しい報酬モデルを組み合わせました。
RPRは、騒々しい報酬モデルを校正し、潜在的な偽陰性を軽減し、オープンエンドタスクでのLLMのパフォーマンスを向上させるのに役立ちました。
これらの発見は、トレーニング前の段階でモデルの基礎能力を改善することの重要性を示唆している一方で、トレーニング後の技術を進めるための洞察を提供します。
私たちのコードとスクリプトは、https://github.com/trestad/noisy-rewards-in-rearning-to-reasonで入手できます。

要約(オリジナル)

Recent studies on post-training large language models (LLMs) for reasoning through reinforcement learning (RL) typically focus on tasks that can be accurately verified and rewarded, such as solving math problems. In contrast, our research investigates the impact of reward noise, a more practical consideration for real-world scenarios involving the post-training of LLMs using reward models. We found that LLMs demonstrate strong robustness to substantial reward noise. For example, manually flipping 40% of the reward function’s outputs in math tasks still allows a Qwen-2.5-7B model to achieve rapid convergence, improving its performance on math tasks from 5% to 72%, compared to the 75% accuracy achieved by a model trained with noiseless rewards. Surprisingly, by only rewarding the appearance of key reasoning phrases (namely reasoning pattern reward, RPR), such as “first, I need to”-without verifying the correctness of answers, the model achieved peak downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models trained with strict correctness verification and accurate rewards. Recognizing the importance of the reasoning process over the final results, we combined RPR with noisy reward models. RPR helped calibrate the noisy reward models, mitigating potential false negatives and enhancing the LLM’s performance on open-ended tasks. These findings suggest the importance of improving models’ foundational abilities during the pre-training phase while providing insights for advancing post-training techniques. Our code and scripts are available at https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.

arxiv情報

著者 Ang Lv,Ruobing Xie,Xingwu Sun,Zhanhui Kang,Rui Yan
発行日 2025-05-28 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason はコメントを受け付けていません

GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning

要約

大規模な言語モデル(LLMS)の評価は、伝統的に静的ベンチマークに依存してきました。これは、2つの主要な制限をもたらすパラダイムです。(1)定義されたテストセットには、多様なアプリケーションドメインへの適応性がありません。
これらの課題を克服するために、敵対的なゲームベースの相互作用に基づいた適応的評価フレームワークである推定アレナを提案します。
私が誰なのか推測のインタラクティブな構造に触発されましたか?
ゲーム、私たちのフレームワークは、動的ドメインの知識モデリングを進歩的な推論評価とシームレスに統合して、評価の忠実度を改善します。
5つの垂直ドメイン、ヘルスケア、製造、情報技術、および教育を実証する経験的研究では、推測がドメインの知識カバレッジと推論チェーンの完全性の観点からLLMSを効果的に区別していることを説明しています。
従来のベンチマークと比較して、私たちの方法は、解釈可能性、スケーラビリティ、シナリオの適応性において大きな利点を提供します。

要約(オリジナル)

The evaluation of large language models (LLMs) has traditionally relied on static benchmarks, a paradigm that poses two major limitations: (1) predefined test sets lack adaptability to diverse application domains, and (2) standardized evaluation protocols often fail to capture fine-grained assessments of domain-specific knowledge and contextual reasoning abilities. To overcome these challenges, we propose GuessArena, an adaptive evaluation framework grounded in adversarial game-based interactions. Inspired by the interactive structure of the Guess Who I Am? game, our framework seamlessly integrates dynamic domain knowledge modeling with progressive reasoning assessment to improve evaluation fidelity. Empirical studies across five vertical domains-finance, healthcare, manufacturing, information technology, and education-demonstrate that GuessArena effectively distinguishes LLMs in terms of domain knowledge coverage and reasoning chain completeness. Compared to conventional benchmarks, our method provides substantial advantages in interpretability, scalability, and scenario adaptability.

arxiv情報

著者 Qingchen Yu,Zifan Zheng,Ding Chen,Simin Niu,Bo Tang,Feiyu Xiong,Zhiyu Li
発行日 2025-05-28 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning はコメントを受け付けていません