Outcome-based Reinforcement Learning to Predict the Future

要約

検証可能な報酬(RLVR)による強化学習は、大規模な言語モデルで数学とコーディングを後押ししましたが、RLVRを予測のような厄介な現実世界のドメインに拡張する努力はほとんどありませんでした。
1つの執着点は、予測のための結果に基づく補強学習が、標準的な微調整が脆弱な体制であるバイナリ、遅延、および騒々しい報酬から学ばなければならないということです。
14Bモデルの結果のみのオンラインRLが、フロンティアスケールの精度に一致し、2つの主要なアルゴリズム、グループ相関ポリシー最適化(GRPO)とRemaxを予測設定に適応させることにより、キャリブレーションと仮説予測市場の賭けでそれを上回ることができることを示します。
私たちの適応は、GRPOでの質問ごとの分散スケーリングを削除し、Remaxのベースラインサブラクトの利点を適用し、100kの時間的に一貫した合成質問で水和トレーニングを適用し、無数のガードレールを導入し、無数の非英語の回答と障害のある根拠を否定し、110kのイベントを超えて単一の安定したパスを可能にします。
Remaxを110kの質問にスケーリングし、7つの予測をsemblingすると、キャリブレーション(ECE = 0.042、p <0.001)で叩きながら、ホールドアウトセット(Brier = 0.193、p = 0.23)の精度でフロンティアベースラインO1を一致させる14Bモデルが得られます。 単純な取引ルールは、このキャリブレーションエッジを、O1(P = 0.037)の場合、\ $ 92の\ $ 127と\ $ 92に変換します。 これは、洗練されたRLVRメソッドが小規模なLLMを潜在的に経済的に価値のある予測ツールに変換できることを示しており、これをより大きなモデルにスケーリングすることに影響します。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has boosted math and coding in large language models, yet there has been little effort to extend RLVR into messier, real-world domains like forecasting. One sticking point is that outcome-based reinforcement learning for forecasting must learn from binary, delayed, and noisy rewards, a regime where standard fine-tuning is brittle. We show that outcome-only online RL on a 14B model can match frontier-scale accuracy and surpass it in calibration and hypothetical prediction market betting by adapting two leading algorithms, Group-Relative Policy Optimisation (GRPO) and ReMax, to the forecasting setting. Our adaptations remove per-question variance scaling in GRPO, apply baseline-subtracted advantages in ReMax, hydrate training with 100k temporally consistent synthetic questions, and introduce lightweight guard-rails that penalise gibberish, non-English responses and missing rationales, enabling a single stable pass over 110k events. Scaling ReMax to 110k questions and ensembling seven predictions yields a 14B model that matches frontier baseline o1 on accuracy on our holdout set (Brier = 0.193, p = 0.23) while beating it in calibration (ECE = 0.042, p < 0.001). A simple trading rule turns this calibration edge into \$127 of hypothetical profit versus \$92 for o1 (p = 0.037). This demonstrates that refined RLVR methods can convert small-scale LLMs into potentially economically valuable forecasting tools, with implications for scaling this to larger models.

arxiv情報

著者 Benjamin Turtel,Danny Franklin,Kris Skotheim,Luke Hewitt,Philipp Schoenegger
発行日 2025-05-26 15:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク