Context is Key: A Benchmark for Forecasting with Essential Textual Information

要約

予測は、多くのドメインにわたる意思決定における重要なタスクです。
履歴数値データは開始を提供しますが、信頼できる正確な予測の完全なコンテキストを伝えることができません。
人間の予測者は、自然言語を通じて効率的に伝達できる背景知識や制約などの追加情報に頻繁に依存しています。
ただし、LLMベースの予測者との最近の進歩にもかかわらず、このテキスト情報を効果的に統合する能力は未解決の問題のままです。
これに対処するために、「コンテキストはキー」(CIK)を紹介します。これは、数値データを多様なタイプの慎重に作成したテキストコンテキストとペアにする時系列予測ベンチマークであり、モデルが両方のモダリティを統合する必要があります。
重要なことに、CIKのすべてのタスクは、テキストコンテキストを正常に解決するために理解する必要があります。
統計モデル、時系列基礎モデル、LLMベースの予測者など、さまざまなアプローチを評価し、ベンチマークで他のすべてのテストされた方法を上回るシンプルで効果的なLLMプロンプト方法を提案します。
私たちの実験は、コンテキスト情報を組み込むことの重要性を強調し、LLMベースの予測モデルを使用する際の驚くべきパフォーマンスを示し、それらの重要な欠点のいくつかを明らかにします。
このベンチマークは、さまざまな技術的専門知識を持つ意思決定者が正確でアクセスしやすいモデルを促進することにより、マルチモーダル予測を進めることを目的としています。
ベンチマークは、https://servicenow.github.io/context-is-key-forecasting/v0/で視覚化できます。

要約(オリジナル)

Forecasting is a critical task in decision-making across numerous domains. While historical numerical data provide a start, they fail to convey the complete context for reliable and accurate predictions. Human forecasters frequently rely on additional information, such as background knowledge and constraints, which can efficiently be communicated through natural language. However, in spite of recent progress with LLM-based forecasters, their ability to effectively integrate this textual information remains an open question. To address this, we introduce ‘Context is Key’ (CiK), a time-series forecasting benchmark that pairs numerical data with diverse types of carefully crafted textual context, requiring models to integrate both modalities; crucially, every task in CiK requires understanding textual context to be solved successfully. We evaluate a range of approaches, including statistical models, time series foundation models, and LLM-based forecasters, and propose a simple yet effective LLM prompting method that outperforms all other tested methods on our benchmark. Our experiments highlight the importance of incorporating contextual information, demonstrate surprising performance when using LLM-based forecasting models, and also reveal some of their critical shortcomings. This benchmark aims to advance multimodal forecasting by promoting models that are both accurate and accessible to decision-makers with varied technical expertise. The benchmark can be visualized at https://servicenow.github.io/context-is-key-forecasting/v0/.

arxiv情報

著者 Andrew Robert Williams,Arjun Ashok,Étienne Marcotte,Valentina Zantedeschi,Jithendaraa Subramanian,Roland Riachi,James Requeima,Alexandre Lacoste,Irina Rish,Nicolas Chapados,Alexandre Drouin
発行日 2025-06-05 17:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Context is Key: A Benchmark for Forecasting with Essential Textual Information はコメントを受け付けていません

Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning

要約

検索された生成(RAG)システムは、一般に知識の対立に苦しみます。
質問応答(QA)などの下流タスクのパフォーマンスに悪影響を及ぼします。
既存のアプローチは、2つの知識ソースを並べて直接比較することで競合を軽減しようとすることがよくありますが、これは外部または長いコンテキストでLLMを圧倒し、最終的に矛盾を特定して軽減する能力を妨げます。
この問題に対処するために、コンテキストの複雑さを自動的に知覚し、各知識ソースを細粒の比較のシーケンスに適応的に分解する階層アクション空間を備えたマイクロアクトを提案します。
これらの比較は、実用的なステップとして表され、表面的な文脈を超えて推論を可能にします。
5つのベンチマークデータセットでの広範な実験を通じて、Micro-ACTは、5つのデータセットすべてと3つの競合タイプにわたる最先端のベースラインで、特にすべてのベースラインが大幅に故障した3つの競合タイプにわたってQA精度を一貫して達成します。
さらに重要なことは、Micro-ACTは、非紛争の質問で同時に堅牢なパフォーマンスを示し、実際のRAGアプリケーションでの実用的な価値を強調することです。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) systems commonly suffer from Knowledge Conflicts, where retrieved external knowledge contradicts the inherent, parametric knowledge of large language models (LLMs). It adversely affects performance on downstream tasks such as question answering (QA). Existing approaches often attempt to mitigate conflicts by directly comparing two knowledge sources in a side-by-side manner, but this can overwhelm LLMs with extraneous or lengthy contexts, ultimately hindering their ability to identify and mitigate inconsistencies. To address this issue, we propose Micro-Act a framework with a hierarchical action space that automatically perceives context complexity and adaptively decomposes each knowledge source into a sequence of fine-grained comparisons. These comparisons are represented as actionable steps, enabling reasoning beyond the superficial context. Through extensive experiments on five benchmark datasets, Micro-Act consistently achieves significant increase in QA accuracy over state-of-the-art baselines across all 5 datasets and 3 conflict types, especially in temporal and semantic types where all baselines fail significantly. More importantly, Micro-Act exhibits robust performance on non-conflict questions simultaneously, highlighting its practical value in real-world RAG applications.

arxiv情報

著者 Nan Huo,Jinyang Li,Bowen Qin,Ge Qu,Xiaolong Li,Xiaodong Li,Chenhao Ma,Reynold Cheng
発行日 2025-06-05 17:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning はコメントを受け付けていません

Fast-DataShapley: Neural Modeling for Training Data Valuation

要約

トレーニングデータの価値と著作権は、人工知能業界で重要です。
サービスプラットフォームは、データプロバイダーの正当な権利を保護し、貢献に対してかなり報いる必要があります。
貢献を評価するための強力なツールであるShapley Valueは、理論的に他の方法よりも優れていますが、その計算オーバーヘッドはデータプロバイダーの数と指数関数的にエスカレートします。
Shapley Valuesに基づく最近の作品は、近似アルゴリズムによる計算の複雑さを軽減しようとします。
ただし、テストサンプルごとに再訓練する必要があり、耐え難いコストにつながる必要があります。
Shapley値の加重最小二乗特性評価を活用して、リアルタイムの推論速度で再利用可能な説明モデルをトレーニングする1パストレーニング方法であるFast Datashapleyを提案します。
新しいテストサンプルを考えると、トレーニングデータのShapley値を計算するために再訓練は必要ありません。
さらに、2つの側面からトレーニングオーバーヘッドを削減するための理論的保証を含む3つの方法を提案します:ユーティリティ関数の近似計算とトレーニングデータのグループ計算。
時間の複雑さを分析して、方法の効率を示します。
さまざまな画像データセットの実験的評価は、ベースラインと比較して優れた性能と効率性を示しています。
具体的には、パフォーマンスは2.5倍以上に改善され、説明者のトレーニング速度は2桁増加する可能性があります。

要約(オリジナル)

The value and copyright of training data are crucial in the artificial intelligence industry. Service platforms should protect data providers’ legitimate rights and fairly reward them for their contributions. Shapley value, a potent tool for evaluating contributions, outperforms other methods in theory, but its computational overhead escalates exponentially with the number of data providers. Recent works based on Shapley values attempt to mitigate computation complexity by approximation algorithms. However, they need to retrain for each test sample, leading to intolerable costs. We propose Fast-DataShapley, a one-pass training method that leverages the weighted least squares characterization of the Shapley value to train a reusable explainer model with real-time reasoning speed. Given new test samples, no retraining is required to calculate the Shapley values of the training data. Additionally, we propose three methods with theoretical guarantees to reduce training overhead from two aspects: the approximate calculation of the utility function and the group calculation of the training data. We analyze time complexity to show the efficiency of our methods. The experimental evaluations on various image datasets demonstrate superior performance and efficiency compared to baselines. Specifically, the performance is improved to more than 2.5 times, and the explainer’s training speed can be increased by two orders of magnitude.

arxiv情報

著者 Haifeng Sun,Yu Xiong,Runze Wu,Xinyu Cai,Changjie Fan,Lan Zhang,Xiang-Yang Li
発行日 2025-06-05 17:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Fast-DataShapley: Neural Modeling for Training Data Valuation はコメントを受け付けていません

Sample Complexity and Representation Ability of Test-time Scaling Paradigms

要約

テスト時間スケーリングパラダイムは、複雑なタスク上の大規模な言語モデル(LLMS)の機能を大幅に進めています。
経験的な成功にもかかわらず、自己整合性、ベスト$ n $、自己修正など、さまざまなテスト時間戦略のサンプル効率の理論的理解は限られたままです。
この作業では、最初に2つの繰り返しサンプリング戦略の間に分離結果を確立します。自己整合性には$ \ theta(1/\ delta^2)$サンプルが正しい答えを生成しますが、ベスト$ n $は$ \ theta(1/\ delta)$のみを必要とします。
次に、検証剤フィードバックを使用して、自己修正アプローチの表現力の結果を提示します。これにより、トランスはテスト時に専門家のプールでオンライン学習をシミュレートできます。
したがって、単一の変圧器アーキテクチャは、ユーザークエリに関連する特定のタスクの事前知識なしに複数のタスクを証明し、トランスの表現理論をシングルタスクからマルチタスク設定に拡張します。
最後に、理論的な結果を経験的に検証し、自己修正方法の実際的な有効性を実証します。

要約(オリジナル)

Test-time scaling paradigms have significantly advanced the capabilities of large language models (LLMs) on complex tasks. Despite their empirical success, theoretical understanding of the sample efficiency of various test-time strategies — such as self-consistency, best-of-$n$, and self-correction — remains limited. In this work, we first establish a separation result between two repeated sampling strategies: self-consistency requires $\Theta(1/\Delta^2)$ samples to produce the correct answer, while best-of-$n$ only needs $\Theta(1/\Delta)$, where $\Delta < 1$ denotes the probability gap between the correct and second most likely answers. Next, we present an expressiveness result for the self-correction approach with verifier feedback: it enables Transformers to simulate online learning over a pool of experts at test time. Therefore, a single Transformer architecture can provably solve multiple tasks without prior knowledge of the specific task associated with a user query, extending the representation theory of Transformers from single-task to multi-task settings. Finally, we empirically validate our theoretical results, demonstrating the practical effectiveness of self-correction methods.

arxiv情報

著者 Baihe Huang,Shanda Li,Tianhao Wu,Yiming Yang,Ameet Talwalkar,Kannan Ramchandran,Michael I. Jordan,Jiantao Jiao
発行日 2025-06-05 17:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Sample Complexity and Representation Ability of Test-time Scaling Paradigms はコメントを受け付けていません

Control Tax: The Price of Keeping AI in Check

要約

エージェントAIをハイステークスの現実世界アプリケーションに迅速に統合するには、堅牢な監視メカニズムが必要です。
AI Control(AIC)の新興分野は、このような監視メカニズムを提供することを目的としていますが、実用的な採用は、オーバーヘッドの実装に大きく依存します。
この問題をより適切に研究するために、制御税の概念を紹介します。これは、制御対策をAIパイプラインに統合する運用コストと財務コストです。
私たちの作業は、AICの分野に3つの重要な貢献をしています。(1)制御税とマップ分類器のパフォーマンスを安全保証に定量化する理論的枠組みを紹介します。
(2)攻撃者モデルが微妙なバックドアをコードに挿入しながら、モデルを監視する一方で、これらの脆弱性を検出しようとする攻撃者モデルが微妙なバックドアをコードに挿入する敵対的な設定で、最先端の言語モデルの包括的な評価を実施します。
(3)制御プロトコルの経験的財務コストの見積もりを提供し、予算の監査などの実用的な制約を考慮しながら、安全性と費用対効果のバランスをとる最適化された監視戦略を開発します。
当社のフレームワークにより、開業医は安全保証を体系的にコストと結びつけ、さまざまな展開コンテキストにわたって原則的な経済的実現可能性評価を通じてAICを進めることにより、情報に基づいた意思決定を行うことができます。

要約(オリジナル)

The rapid integration of agentic AI into high-stakes real-world applications requires robust oversight mechanisms. The emerging field of AI Control (AIC) aims to provide such an oversight mechanism, but practical adoption depends heavily on implementation overhead. To study this problem better, we introduce the notion of Control tax — the operational and financial cost of integrating control measures into AI pipelines. Our work makes three key contributions to the field of AIC: (1) we introduce a theoretical framework that quantifies the Control Tax and maps classifier performance to safety assurances; (2) we conduct comprehensive evaluations of state-of-the-art language models in adversarial settings, where attacker models insert subtle backdoors into code while monitoring models attempt to detect these vulnerabilities; and (3) we provide empirical financial cost estimates for control protocols and develop optimized monitoring strategies that balance safety and cost-effectiveness while accounting for practical constraints like auditing budgets. Our framework enables practitioners to make informed decisions by systematically connecting safety guarantees with their costs, advancing AIC through principled economic feasibility assessment across different deployment contexts.

arxiv情報

著者 Mikhail Terekhov,Zhen Ning David Liu,Caglar Gulcehre,Samuel Albanie
発行日 2025-06-05 17:48:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Control Tax: The Price of Keeping AI in Check はコメントを受け付けていません

ProRefine: Inference-time Prompt Refinement with Textual Feedback

要約

複数のAIエージェントが協力して推論や計画などの複雑なタスクを達成するエージェントワークフローがますます一般的になっています。
ただし、これらのワークフローは、主に個々のエージェントを効果的にガイドしないと主に設計が不十分なプロンプトが原因で、エラーの伝播と最適なパフォーマンスに悩まされることがよくあります。
これらの強力なシステムの信頼性とスケーラビリティを制限するため、これは重大な問題です。
この課題に対処するために、大規模な言語モデル(LLMS)からのテキストフィードバックを活用する革新的な推論時間プロンプト最適化方法であるProRefineを紹介します。
ProRefineは、追加のトレーニングやグラウンドトゥルースラベルなしで、マルチステップの推論タスクのプロンプトを動的に改良します。
5つのベンチマーク数学的推論データセットで評価され、ProRefineはゼロショットチェーンのベースラインを3〜37パーセントポイント上回ります。
このアプローチは、精度を高めるだけでなく、より大きなモデルのパフォーマンスに一致させることを可能にし、効率的でスケーラブルなAI展開の可能性を強調し、高性能AIへのアクセスを民主化します。

要約(オリジナル)

Agentic workflows, where multiple AI agents collaborate to accomplish complex tasks like reasoning or planning, are becoming increasingly prevalent. However, these workflows often suffer from error propagation and sub-optimal performance, largely due to poorly designed prompts that fail to effectively guide individual agents. This is a critical problem because it limits the reliability and scalability of these powerful systems. We introduce ProRefine, an innovative inference-time prompt optimization method that leverages textual feedback from large language models (LLMs) to address this challenge. ProRefine dynamically refines prompts for multi-step reasoning tasks without additional training or ground truth labels. Evaluated on five benchmark mathematical reasoning datasets, ProRefine significantly surpasses zero-shot Chain-of-Thought baselines by 3 to 37 percentage points. This approach not only boosts accuracy but also allows smaller models to match the performance of larger ones, highlighting its potential for efficient and scalable AI deployment, and democratizing access to high-performing AI.

arxiv情報

著者 Deepak Pandita,Tharindu Cyril Weerasooriya,Ankit Parag Shah,Christopher M. Homan,Wei Wei
発行日 2025-06-05 17:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ProRefine: Inference-time Prompt Refinement with Textual Feedback はコメントを受け付けていません

Time to Talk: LLM Agents for Asynchronous Group Communication in Mafia Games

要約

LLMは、主に同期通信で使用され、人間のユーザーとモデルが交互ターンで通信します。
対照的に、多くの現実世界の設定は本質的に非同期です。
たとえば、グループチャット、オンラインチームミーティング、またはソーシャルゲームでは、ターンという固有の概念はありません。
したがって、いつ話すかの決定は、参加者の意思決定の重要な部分を形成します。
この作業では、適応的な非同期LLMエージェントを開発します。これは、何を言うかを決定することに加えて、いつ言うかを決定します。
エージェントを評価するために、人間の参加者と非同期エージェントの両方を含むオンラインマフィアゲームの一意のデータセットを収集します。
全体として、私たちのエージェントは、ゲームのパフォーマンスの両方で、また他の人間のプレイヤーと融合する能力の両方で、人間のプレイヤーと同等のパフォーマンスを発揮します。
私たちの分析は、メッセージコンテンツに違いが生じるものの、いつ話すかを決定する際のエージェントの行動が人間のパターンを密接に反映していることを示しています。
すべてのデータとコードをリリースして、LLMエージェント間のより現実的な非同期コミュニケーションのためのさらなる研究をサポートおよび奨励します。
この作業は、チームの議論の支援から、複雑な社会的ダイナミクスをナビゲートする必要がある教育的および専門的な環境まで、LLMを現実的な人間のグループ設定に統合する方法を舗装します。

要約(オリジナル)

LLMs are used predominantly in synchronous communication, where a human user and a model communicate in alternating turns. In contrast, many real-world settings are inherently asynchronous. For example, in group chats, online team meetings, or social games, there is no inherent notion of turns; therefore, the decision of when to speak forms a crucial part of the participant’s decision making. In this work, we develop an adaptive asynchronous LLM-agent which, in addition to determining what to say, also decides when to say it. To evaluate our agent, we collect a unique dataset of online Mafia games, including both human participants, as well as our asynchronous agent. Overall, our agent performs on par with human players, both in game performance, as well as in its ability to blend in with the other human players. Our analysis shows that the agent’s behavior in deciding when to speak closely mirrors human patterns, although differences emerge in message content. We release all our data and code to support and encourage further research for more realistic asynchronous communication between LLM agents. This work paves the way for integration of LLMs into realistic human group settings, from assistance in team discussions to educational and professional environments where complex social dynamics must be navigated.

arxiv情報

著者 Niv Eckhaus,Uri Berger,Gabriel Stanovsky
発行日 2025-06-05 17:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | Time to Talk: LLM Agents for Asynchronous Group Communication in Mafia Games はコメントを受け付けていません

Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models

要約

現実世界の設定で展開された大規模な言語モデル(LLM)は、繊細、時代遅れ、または独自の情報を学習する必要性にますます直面しています。
既存の未学習方法は、通常、忘却と保持を正規化されたトレードオフとして定式化し、両方の目的を単一のスカラリットされた損失に組み合わせます。
これは、特に積極的な忘却の下で、不安定な最適化と保持データのパフォーマンスの低下につながることがよくあります。
制約された最適化問題としてLLMの新しい定式化を提案します。忘却は、指定された忘却セットの均一性に向けて出力分布を明示的に駆動する新しいロジットマージン分布を介して施行されますが、個別の保持セットでのハード制約を介して保持が保持されます。
エントロピーベースの目的と比較して、私たちの損失はソフトマックスフリーで、数値的に安定しており、非廃止勾配を維持し、より効率的で堅牢な最適化を可能にします。
デュアル変数のダイナミクスを介して忘却と保持のトレードオフを公開するスケーラブルなプライマルデュアルアルゴリズムを使用して、制約された問題を解決します。
多様なLLMアーキテクチャ全体の豆腐とミューズのベンチマークの評価は、私たちのアプローチが一貫して最先端のベースラインに一致するか、それを超えており、下流のユーティリティを維持しながらターゲット情報を効果的に削除することを示しています。

要約(オリジナル)

Large Language Models (LLMs) deployed in real-world settings increasingly face the need to unlearn sensitive, outdated, or proprietary information. Existing unlearning methods typically formulate forgetting and retention as a regularized trade-off, combining both objectives into a single scalarized loss. This often leads to unstable optimization and degraded performance on retained data, especially under aggressive forgetting. We propose a new formulation of LLM unlearning as a constrained optimization problem: forgetting is enforced via a novel logit-margin flattening loss that explicitly drives the output distribution toward uniformity on a designated forget set, while retention is preserved through a hard constraint on a separate retain set. Compared to entropy-based objectives, our loss is softmax-free, numerically stable, and maintains non-vanishing gradients, enabling more efficient and robust optimization. We solve the constrained problem using a scalable primal-dual algorithm that exposes the trade-off between forgetting and retention through the dynamics of the dual variable. Evaluations on the TOFU and MUSE benchmarks across diverse LLM architectures demonstrate that our approach consistently matches or exceeds state-of-the-art baselines, effectively removing targeted information while preserving downstream utility.

arxiv情報

著者 Taha Entesari,Arman Hatami,Rinat Khaziev,Anil Ramakrishna,Mahyar Fazlyab
発行日 2025-06-05 17:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models はコメントを受け付けていません

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

要約

強化学習(RL)は、特に推論能力を高めるために、大規模な言語モデル(LLMS)を微調整するための効果的なアプローチとなっています。
ただし、RLの微調整は非常にリソース集約型のままであり、既存の作業により、データ効率の問題がほとんど見落とされています。
このホワイトペーパーでは、LLM RL微調整のデータ効率を向上させるための2つの手法を提案しています。
適応困難の概念を紹介して、オンラインデータの選択をガイドし、有益な学習信号を生成する可能性が高い中程度の難易度の質問に優先順位を付けます。
適応難易度を効率的に推定するために、小さな参照セットのみにロールアウトを必要とする注意ベースのフレームワークを開発します。
残りの質問の適応難しさは、このセットとの類似性に基づいて推定されます。
ロールアウトコストをさらに削減するために、最近のロールアウトを再利用するロールアウトリプレイメカニズムを導入し、安定した更新を維持しながらステップごとの計算を下げます。
6 LLM-DATASETの組み合わせにわたる広範な実験では、この方法がRLの微調整時間を25%減少させて65%減らして、元のGRPOアルゴリズムと同じレベルのパフォーマンスに到達することが示されています。

要約(オリジナル)

Reinforcement learning (RL) has become an effective approach for fine-tuning large language models (LLMs), particularly to enhance their reasoning capabilities. However, RL fine-tuning remains highly resource-intensive, and existing work has largely overlooked the problem of data efficiency. In this paper, we propose two techniques to improve data efficiency in LLM RL fine-tuning: difficulty-targeted online data selection and rollout replay. We introduce the notion of adaptive difficulty to guide online data selection, prioritizing questions of moderate difficulty that are more likely to yield informative learning signals. To estimate adaptive difficulty efficiently, we develop an attention-based framework that requires rollouts for only a small reference set of questions. The adaptive difficulty of the remaining questions is then estimated based on their similarity to this set. To further reduce rollout cost, we introduce a rollout replay mechanism that reuses recent rollouts, lowering per-step computation while maintaining stable updates. Extensive experiments across 6 LLM-dataset combinations show that our method reduces RL fine-tuning time by 25% to 65% to reach the same level of performance as the original GRPO algorithm.

arxiv情報

著者 Yifan Sun,Jingyan Shen,Yibin Wang,Tianyu Chen,Zhendong Wang,Mingyuan Zhou,Huan Zhang
発行日 2025-06-05 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay はコメントを受け付けていません

AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning

要約

推論のための大規模な強化学習(RL)の最近の進歩にもかかわらず、高性能の推論モデルを構築するためのトレーニングレシピはとらえどころのないままです。
データキュレーション戦略やRLトレーニングレシピなど、Deepseek-R1などのフロンティアモデルの主要な実装の詳細は、しばしば省略されています。
さらに、最近の研究では、小規模なモデルのRLよりも蒸留が依然として効果的であることが示されています。
この作業では、大規模なRLが強力な、中小サイズのモデルの推論能力を大幅に強化し、最先端の蒸留ベースのモデルの結果を上回る結果を達成できることを実証します。
広範なアブレーションを通じてRLトレーニングプロセスを体系的に研究し、シンプルでありながら効果的なアプローチを提案します。数学のみのプロンプト、次にコードのみのプロンプトに関する最初のトレーニングです。
特に、数学のみのRLが、数学ベンチマークでの強力な蒸留モデルのパフォーマンスを大幅に向上させるだけでなく、7B / 14BモデルのAIME 2025で +14.6% / +17.2%)だけでなく、7B / 14Bモデルのリベコーブベンチでは +6.8% / +5.8%)。
さらに、拡張コードのみのRL反復は、数学の結果に最小限または分解なしでコードベンチマークのパフォーマンスをさらに改善します。
堅牢なデータキュレーションパイプラインを開発して、高品質で検証可能な回答とテストケースを備えた挑戦的なプロンプトを収集して、両方のドメインで検証ベースのRLを有効にします。
最後に、応答の長さが徐々に増加するカリキュラム学習や、ポリシー上のパラメーターの更新の安定化効果など、重要な実験的洞察を特定します。
RLは、事前削除および監視された微調整(例:蒸留)中に取得した基本的な推論能力を引き出すだけでなく、モデルの推論能力の限界を押し広げ、以前に解決できなかった問題を解決できるようにすることがわかります。

要約(オリジナル)

Despite recent progress in large-scale reinforcement learning (RL) for reasoning, the training recipe for building high-performing reasoning models remains elusive. Key implementation details of frontier models, such as DeepSeek-R1, including data curation strategies and RL training recipe, are often omitted. Moreover, recent research indicates distillation remains more effective than RL for smaller models. In this work, we demonstrate that large-scale RL can significantly enhance the reasoning capabilities of strong, small- and mid-sized models, achieving results that surpass those of state-of-the-art distillation-based models. We systematically study the RL training process through extensive ablations and propose a simple yet effective approach: first training on math-only prompts, then on code-only prompts. Notably, we find that math-only RL not only significantly enhances the performance of strong distilled models on math benchmarks (e.g., +14.6% / +17.2% on AIME 2025 for the 7B / 14B models), but also code reasoning tasks (e.g., +6.8% / +5.8% on LiveCodeBench for the 7B / 14B models). In addition, extended code-only RL iterations further improve performance on code benchmarks with minimal or no degradation in math results. We develop a robust data curation pipeline to collect challenging prompts with high-quality, verifiable answers and test cases to enable verification-based RL across both domains. Finally, we identify key experimental insights, including curriculum learning with progressively increasing response lengths and the stabilizing effect of on-policy parameter updates. We find that RL not only elicits the foundational reasoning capabilities acquired during pretraining and supervised fine-tuning (e.g., distillation), but also pushes the limits of the model’s reasoning ability, enabling it to solve problems that were previously unsolvable.

arxiv情報

著者 Yang Chen,Zhuolin Yang,Zihan Liu,Chankyu Lee,Peng Xu,Mohammad Shoeybi,Bryan Catanzaro,Wei Ping
発行日 2025-06-05 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning はコメントを受け付けていません