Crabs: Consuming Resource via Auto-generation for LLM-DoS Attack under Black-box Settings

要約

大規模な言語モデル(LLMS)は、多様なタスク全体で顕著なパフォーマンスを実証していますが、外部の脅威、特にLLMサービス拒否(LLM-DOS)攻撃に対して脆弱です。
具体的には、LLM-DOS攻撃は、計算リソースを排出し、サービスをブロックすることを目的としています。
ただし、既存の研究は主にホワイトボックス攻撃に焦点を当てており、ブラックボックスのシナリオが不足しています。
この論文では、ブラックボックスLLMS向けに設計された自動化されたアルゴリズムであるLLM-DOS(AutoDOS)攻撃の自動生成を紹介します。
AutoDOSはDOS攻撃ツリーを構築し、ノードカバレッジを拡張して、ブラックボックス条件下で効果を達成します。
転送可能性駆動型の反復的最適化により、AutoDOSは1つのプロンプトで異なるモデルで動作する可能性があります。
さらに、長さのトロイの木馬を埋め込むことで、オートドが既存の防御をより効果的にバイパスできるようになることが明らかになりました。
実験結果は、AutoDOSがサービス応答の遅延を250 $ \ Times \ uparrow $を大幅に増幅し、GPUの利用とメモリ使用に関して深刻なリソース消費につながることを示しています。
私たちの仕事は、LLM-Dos攻撃とセキュリティ防御に関する新しい視点を提供します。
私たちのコードは、https://github.com/shuita2333/autodosで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks yet still are vulnerable to external threats, particularly LLM Denial-of-Service (LLM-DoS) attacks. Specifically, LLM-DoS attacks aim to exhaust computational resources and block services. However, existing studies predominantly focus on white-box attacks, leaving black-box scenarios underexplored. In this paper, we introduce Auto-Generation for LLM-DoS (AutoDoS) attack, an automated algorithm designed for black-box LLMs. AutoDoS constructs the DoS Attack Tree and expands the node coverage to achieve effectiveness under black-box conditions. By transferability-driven iterative optimization, AutoDoS could work across different models in one prompt. Furthermore, we reveal that embedding the Length Trojan allows AutoDoS to bypass existing defenses more effectively. Experimental results show that AutoDoS significantly amplifies service response latency by over 250$\times\uparrow$, leading to severe resource consumption in terms of GPU utilization and memory usage. Our work provides a new perspective on LLM-DoS attacks and security defenses. Our code is available at https://github.com/shuita2333/AutoDoS.

arxiv情報

著者 Yuanhe Zhang,Zhenhong Zhou,Wei Zhang,Xinyue Wang,Xiaojun Jia,Yang Liu,Sen Su
発行日 2025-05-26 15:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Crabs: Consuming Resource via Auto-generation for LLM-DoS Attack under Black-box Settings はコメントを受け付けていません

Retrieval Models Aren’t Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

要約

ツール学習は、多様なツールを使用して大規模な言語モデル(LLM)を増強することを目的としており、実用的なタスクを解決するためのエージェントとして機能することができます。
ツール使用LLMSのコンテキストの長さが限られているため、情報検索(IR)モデルを採用して、大きなツールセットから便利なツールを選択することは、重要な初期ステップです。
ただし、ツール検索タスクにおけるIRモデルのパフォーマンスは、目の当たり症状のままであり、不明のままです。
ほとんどのツール使用ベンチマークは、実際のシナリオからはほど遠い各タスクに関連するツールの小さなセットを手動で事前に解決することにより、このステップを簡素化します。
このホワイトペーパーでは、7.6K多様な検索タスクを含む不均一なツール検索ベンチマークと、既存のデータセットから収集された43KツールのコーパスであるToolretを提案します。
Toolretで6種類のモデルをベンチマークします。
驚くべきことに、従来のIRベンチマークで強力なパフォーマンスを持つモデルでさえ、Toolretでパフォーマンスが低下します。
この低検索品質は、ツール使用LLMのタスク合格率を低下させます。
さらにステップとして、200Kを超えるインスタンスを備えた大規模なトレーニングデータセットを提供し、IRモデルのツール検索機能を大幅に最適化します。

要約(オリジナル)

Tool learning aims to augment large language models (LLMs) with diverse tools, enabling them to act as agents for solving practical tasks. Due to the limited context length of tool-using LLMs, adopting information retrieval (IR) models to select useful tools from large toolsets is a critical initial step. However, the performance of IR models in tool retrieval tasks remains underexplored and unclear. Most tool-use benchmarks simplify this step by manually pre-annotating a small set of relevant tools for each task, which is far from the real-world scenarios. In this paper, we propose ToolRet, a heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks, and a corpus of 43k tools, collected from existing datasets. We benchmark six types of models on ToolRet. Surprisingly, even the models with strong performance in conventional IR benchmarks, exhibit poor performance on ToolRet. This low retrieval quality degrades the task pass rate of tool-use LLMs. As a further step, we contribute a large-scale training dataset with over 200k instances, which substantially optimizes the tool retrieval ability of IR models.

arxiv情報

著者 Zhengliang Shi,Yuhan Wang,Lingyong Yan,Pengjie Ren,Shuaiqiang Wang,Dawei Yin,Zhaochun Ren
発行日 2025-05-26 15:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Retrieval Models Aren’t Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models はコメントを受け付けていません

Likelihood-Ratio Regularized Quantile Regression: Adapting Conformal Prediction to High-Dimensional Covariate Shifts

要約

共変量シフトの下でのコンフォーマル予測の問題を考慮します。
ソースドメインからのラベル付きデータと、共変量シフトターゲットドメインからの非標識データが与えられた場合、ターゲットドメインに有効な限界カバレッジを持つ予測セットを構築しようとします。
ほとんどの既存の方法では、未知の尤度比関数を推定する必要があります。これは、画像などの高次元データでは禁止されている可能性があります。
この課題に対処するために、未知の尤度比を推定せずにしきい値関数を直接推定するために、ピンボール損失を正規化の新しい選択と組み合わせた尤度比が正規化された分位回帰(LR-QR)アルゴリズムを導入します。
LR-QRメソッドは、ターゲットドメインの目的のレベルで、制御できる小さなエラー用語までのカバレッジがあることを示します。
私たちの証拠は、学習理論からの安定性の境界を介したカバレッジの新しい分析を利用しています。
私たちの実験は、LR-QRアルゴリズムが、コミュニティや犯罪データセットの回帰タスク、Wildsリポジトリの画像分類タスク、MMLUベンチマークでのLLM質問回答タスクなど、高次元予測タスクの既存の方法を上回ることを示しています。

要約(オリジナル)

We consider the problem of conformal prediction under covariate shift. Given labeled data from a source domain and unlabeled data from a covariate shifted target domain, we seek to construct prediction sets with valid marginal coverage in the target domain. Most existing methods require estimating the unknown likelihood ratio function, which can be prohibitive for high-dimensional data such as images. To address this challenge, we introduce the likelihood ratio regularized quantile regression (LR-QR) algorithm, which combines the pinball loss with a novel choice of regularization in order to construct a threshold function without directly estimating the unknown likelihood ratio. We show that the LR-QR method has coverage at the desired level in the target domain, up to a small error term that we can control. Our proofs draw on a novel analysis of coverage via stability bounds from learning theory. Our experiments demonstrate that the LR-QR algorithm outperforms existing methods on high-dimensional prediction tasks, including a regression task for the Communities and Crime dataset, an image classification task from the WILDS repository, and an LLM question-answering task on the MMLU benchmark.

arxiv情報

著者 Sunay Joshi,Shayan Kiyani,George Pappas,Edgar Dobriban,Hamed Hassani
発行日 2025-05-26 15:21:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Likelihood-Ratio Regularized Quantile Regression: Adapting Conformal Prediction to High-Dimensional Covariate Shifts はコメントを受け付けていません

Spatiotemporal Causal Decoupling Model for Air Quality Forecasting

要約

大気汚染が人間の健康、生計、経済発展に大きな影響を与えるため、大気質予測は最も重要です。
当初、因果グラフ法を採用して、大気質指数(AQI)と気象の特徴の間の因果関係を包括的にモデル化する既存の研究の制約を精査します。
予測精度を高めるために、因果分離アプローチを組み込んだ新しい大気質予測モデルであるエアケードを導入します。
Aircadeは、AQIの内部ダイナミクスをキャプチャするために、知識の埋め込み手法と組み合わせて、時空間モジュールを活用します。
その後、過去のAQIおよび気象特徴からの同期因果性を解くために、因果的なデカップリングモジュールが提案され、その後、パフォーマンスを向上させるための将来の時間ステップに獲得した知識を普及させます。
さらに、将来の気象特徴の不確実性を明示的に表すために、因果介入メカニズムを導入し、それによってモデルの堅牢性を強化します。
オープンソースの大気質データセットでのエアケードの評価は、最先端のモデルよりも20以上の相対的な改善を示しています。

要約(オリジナル)

Due to the profound impact of air pollution on human health, livelihoods, and economic development, air quality forecasting is of paramount significance. Initially, we employ the causal graph method to scrutinize the constraints of existing research in comprehensively modeling the causal relationships between the air quality index (AQI) and meteorological features. In order to enhance prediction accuracy, we introduce a novel air quality forecasting model, AirCade, which incorporates a causal decoupling approach. AirCade leverages a spatiotemporal module in conjunction with knowledge embedding techniques to capture the internal dynamics of AQI. Subsequently, a causal decoupling module is proposed to disentangle synchronous causality from past AQI and meteorological features, followed by the dissemination of acquired knowledge to future time steps to enhance performance. Additionally, we introduce a causal intervention mechanism to explicitly represent the uncertainty of future meteorological features, thereby bolstering the model’s robustness. Our evaluation of AirCade on an open-source air quality dataset demonstrates over 20\% relative improvement over state-of-the-art models.

arxiv情報

著者 Jiaming Ma,Guanjun Wang,Sheng Huang,Kuo Yang,Binwu Wang,Pengkun Wang,Yang Wang
発行日 2025-05-26 15:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Spatiotemporal Causal Decoupling Model for Air Quality Forecasting はコメントを受け付けていません

Agents Require Metacognitive and Strategic Reasoning to Succeed in the Coming Labor Markets

要約

現在の労働市場は、$ \ textit {不完全な情報} $のためにそれぞれが発生する、それぞれが不利な選択、モラルハザード、および評判の経済的勢力の影響を強く受けています。
これらの経済力は、AIエージェントが導入された後も影響力があり、したがって、エージェントはメタ認知的および戦略的推論を使用して効果的に実行する必要があります。
メタ認知は、自己評価、タスク理解、戦略の評価の能力を含む$ \ textit {内部推論} $の形式です。
戦略的推論は、労働市場(競合他社、同僚など)の他の参加者についての信念を保持する信念をカバーし、戦略的な決定を下し、時間の経過とともに他の人について学ぶことをカバーする$ \ textit {外部推論} $です。
エージェントは、仕事の内外で労働市場で取得できる多くの$ \ textit {action} $の間で決定するため、両方のタイプの推論が必要です。
メタ認知的および戦略的推論とさらなる開発が必要な分野に関する現在の研究について説明します。

要約(オリジナル)

Current labor markets are strongly affected by the economic forces of adverse selection, moral hazard, and reputation, each of which arises due to $\textit{incomplete information}$. These economic forces will still be influential after AI agents are introduced, and thus, agents must use metacognitive and strategic reasoning to perform effectively. Metacognition is a form of $\textit{internal reasoning}$ that includes the capabilities for self-assessment, task understanding, and evaluation of strategies. Strategic reasoning is $\textit{external reasoning}$ that covers holding beliefs about other participants in the labor market (e.g., competitors, colleagues), making strategic decisions, and learning about others over time. Both types of reasoning are required by agents as they decide among the many $\textit{actions}$ they can take in labor markets, both within and outside their jobs. We discuss current research into metacognitive and strategic reasoning and the areas requiring further development.

arxiv情報

著者 Simpson Zhang,Tennison Liu,Mihaela van der Schaar
発行日 2025-05-26 15:22:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Agents Require Metacognitive and Strategic Reasoning to Succeed in the Coming Labor Markets はコメントを受け付けていません

Entailment vs. Verification for Partial-assignment Satisfiability and Enumeration

要約

SAT関連の問題の多くの手順、特に満足のいく真実の割り当ての完全な列挙を必要とする人々の手順は、入力式を満たす(おそらく小さい)部分割り当ての検出に効率と有効性を依存しています。
驚くべきことに、文献の部分的な割り当てによる式満足度のユニークな普遍的な定義はないようです。
この論文では、部分的な割り当てによって満足の問題を深く分析し、この概念の曖昧さと微妙さについて旗を掲げ、それらの実際的な結果を調査します。
文献で暗黙的に使用される2つの代替概念、すなわち検証と含意を特定します。これは、CNF式に適用された場合に一致しますが、非CNFまたは実存的に定量化された式に適用される場合は異なり、補完的な特性を提示します。
前者は確認が容易であり、そのため、現在のほとんどの検索手順で暗黙的に使用されているが、後者はより良い理論的特性を持ち、列挙手順の効率と有効性を改善できることを示しています。

要約(オリジナル)

Many procedures for SAT-related problems, in particular for those requiring the complete enumeration of satisfying truth assignments, rely their efficiency and effectiveness on the detection of (possibly small) partial assignments satisfying an input formula. Surprisingly, there seems to be no unique universally-agreed definition of formula satisfaction by a partial assignment in the literature. In this paper we analyze in deep the issue of satisfaction by partial assignments, raising a flag about some ambiguities and subtleties of this concept, and investigating their practical consequences. We identify two alternative notions that are implicitly used in the literature, namely verification and entailment, which coincide if applied to CNF formulas but differ and present complementary properties if applied to non-CNF or to existentially-quantified formulas. We show that, although the former is easier to check and as such is implicitly used by most current search procedures, the latter has better theoretical properties, and can improve the efficiency and effectiveness of enumeration procedures.

arxiv情報

著者 Roberto Sebastiani
発行日 2025-05-26 15:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO | Entailment vs. Verification for Partial-assignment Satisfiability and Enumeration はコメントを受け付けていません

Uncertainty Quantification for LLM-Based Survey Simulations

要約

調査の質問に対する人間の反応をシミュレートし、信頼できる洞察を得るために不確実性の定量化を実施するために、大規模な言語モデル(LLM)の使用を調査します。
私たちのアプローチは、不完全なLLMシミュレーション応答を、人間の反応の人口パラメーターの信頼セットに変換し、シミュレートされた集団と実際の集団間の分布シフトに対処します。
主要な革新は、シミュレートされた応答の最適数を決定することにあります。あまりにも多くの生成が多すぎると、カバレッジが不十分な狭い信頼性セットがありますが、少なすぎると過度にゆるい推定値が得られます。
これを解決するために、当社の方法はシミュレーションサンプルサイズを適応的に選択し、有効な平均ケースカバレッジ保証を保証します。
それは、その忠実度や信頼セットを構築する手順に関係なく、あらゆるLLMに広く適用されます。
さらに、選択されたサンプルサイズは、LLMとターゲットのヒト集団との間の不整合の程度を定量化します。
実際のデータセットとLLMでの方法を説明します。

要約(オリジナル)

We investigate the use of large language models (LLMs) to simulate human responses to survey questions, and perform uncertainty quantification to gain reliable insights. Our approach converts imperfect LLM-simulated responses into confidence sets for population parameters of human responses, addressing the distribution shift between the simulated and real populations. A key innovation lies in determining the optimal number of simulated responses: too many produce overly narrow confidence sets with poor coverage, while too few yield excessively loose estimates. To resolve this, our method adaptively selects the simulation sample size, ensuring valid average-case coverage guarantees. It is broadly applicable to any LLM, irrespective of its fidelity, and any procedure for constructing confidence sets. Additionally, the selected sample size quantifies the degree of misalignment between the LLM and the target human population. We illustrate our method on real datasets and LLMs.

arxiv情報

著者 Chengpiao Huang,Yuhang Wu,Kaizheng Wang
発行日 2025-05-26 15:25:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME | Uncertainty Quantification for LLM-Based Survey Simulations はコメントを受け付けていません

Agentic AI Process Observability: Discovering Behavioral Variability

要約

大規模な言語モデル(LLM)を活用するAIエージェントは、最新のソフトウェアシステムのコアビルディングブロックになりつつあります。
このようなアプリケーションの仕様をサポートするために、幅広いフレームワークが利用可能になりました。
これらのフレームワークは、自然言語のプロンプトを使用してエージェントのセットアップの定義を可能にします。これは、関係するさまざまなエージェントに割り当てられた役割、目標、ツールを指定します。
このようなセットアップ内では、エージェントの動作は特定の入力に対して非決定的であり、堅牢なデバッグおよび観測可能性ツールの重要な必要性を強調しています。
この作業では、開発者の観察性を高める手段として、エージェント実行軌跡に適用されるプロセスと因果発見の使用を調査します。
このアプローチは、エージェントの動作の緊急変動性の監視と理解に役立ちます。
さらに、これをLLMベースの静的分析手法で補完して、意図した行動と意図しない行動変動を区別します。
このような計装は、開発者に進化する仕様をより強力に制御できるようにし、より正確で明示的な定義を必要とする機能の側面を特定するために不可欠であると主張します。

要約(オリジナル)

AI agents that leverage Large Language Models (LLMs) are increasingly becoming core building blocks of modern software systems. A wide range of frameworks is now available to support the specification of such applications. These frameworks enable the definition of agent setups using natural language prompting, which specifies the roles, goals, and tools assigned to the various agents involved. Within such setups, agent behavior is non-deterministic for any given input, highlighting the critical need for robust debugging and observability tools. In this work, we explore the use of process and causal discovery applied to agent execution trajectories as a means of enhancing developer observability. This approach aids in monitoring and understanding the emergent variability in agent behavior. Additionally, we complement this with LLM-based static analysis techniques to distinguish between intended and unintended behavioral variability. We argue that such instrumentation is essential for giving developers greater control over evolving specifications and for identifying aspects of functionality that may require more precise and explicit definitions.

arxiv情報

著者 Fabiana Fournier,Lior Limonad,Yuval David
発行日 2025-05-26 15:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Agentic AI Process Observability: Discovering Behavioral Variability はコメントを受け付けていません

Tensorization is a powerful but underexplored tool for compression and interpretability of neural networks

要約

ニューラルネットワークをテンソレイズするには、その密な重量マトリックスの一部またはすべてを高次テンソルに再形成し、低ランクテンソルネットワーク分解を使用してそれらを近似することが含まれます。
この手法は、大規模なニューラルネットワークのモデル圧縮戦略として有望であることを示しています。
ただし、経験的な結果を奨励しているにもかかわらず、テンソージ化されたニューラルネットワーク(TNN)は、主流の深い学習で十分に活用されていないままです。
このポジションペーパーでは、TNNの潜在的および現在の制限の両方についての視点を提供します。
TNNSは、深い学習のための強力でありながら未熟なフレームワークを表していると主張します。これは、エンジニアリングコミュニティと理論的コミュニティの両方からより大きな注目に値します。
圧縮を超えて、独特のスケーリング特性と解釈可能性の向上を備えた柔軟なクラスのアーキテクチャとしてのTNNの値を強調します。
TNNSの中心的な特徴は、従来のネットワークには見られない新しい潜在スペースを導入する結合インデックスの存在です。
これらの内部表現は、レイヤー間の機能の進化に関するより深い洞察を提供し、機械的解釈可能性の目標を潜在的に進める可能性があります。
最後に、現代の深い学習ワークフローでTNNを拡大および採用することに対する実際的な障壁を克服することを目的としたいくつかの重要な研究の道順を概説することで締めくくります。

要約(オリジナル)

Tensorizing a neural network involves reshaping some or all of its dense weight matrices into higher-order tensors and approximating them using low-rank tensor network decompositions. This technique has shown promise as a model compression strategy for large-scale neural networks. However, despite encouraging empirical results, tensorized neural networks (TNNs) remain underutilized in mainstream deep learning. In this position paper, we offer a perspective on both the potential and current limitations of TNNs. We argue that TNNs represent a powerful yet underexplored framework for deep learning–one that deserves greater attention from both engineering and theoretical communities. Beyond compression, we highlight the value of TNNs as a flexible class of architectures with distinctive scaling properties and increased interpretability. A central feature of TNNs is the presence of bond indices, which introduce new latent spaces not found in conventional networks. These internal representations may provide deeper insight into the evolution of features across layers, potentially advancing the goals of mechanistic interpretability. We conclude by outlining several key research directions aimed at overcoming the practical barriers to scaling and adopting TNNs in modern deep learning workflows.

arxiv情報

著者 Safa Hamreras,Sukhbinder Singh,Román Orús
発行日 2025-05-26 15:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph | Tensorization is a powerful but underexplored tool for compression and interpretability of neural networks はコメントを受け付けていません

Outcome-based Reinforcement Learning to Predict the Future

要約

検証可能な報酬(RLVR)による強化学習は、大規模な言語モデルで数学とコーディングを後押ししましたが、RLVRを予測のような厄介な現実世界のドメインに拡張する努力はほとんどありませんでした。
1つの執着点は、予測のための結果に基づく補強学習が、標準的な微調整が脆弱な体制であるバイナリ、遅延、および騒々しい報酬から学ばなければならないということです。
14Bモデルの結果のみのオンラインRLが、フロンティアスケールの精度に一致し、2つの主要なアルゴリズム、グループ相関ポリシー最適化(GRPO)とRemaxを予測設定に適応させることにより、キャリブレーションと仮説予測市場の賭けでそれを上回ることができることを示します。
私たちの適応は、GRPOでの質問ごとの分散スケーリングを削除し、Remaxのベースラインサブラクトの利点を適用し、100kの時間的に一貫した合成質問で水和トレーニングを適用し、無数のガードレールを導入し、無数の非英語の回答と障害のある根拠を否定し、110kのイベントを超えて単一の安定したパスを可能にします。
Remaxを110kの質問にスケーリングし、7つの予測をsemblingすると、キャリブレーション(ECE = 0.042、p <0.001)で叩きながら、ホールドアウトセット(Brier = 0.193、p = 0.23)の精度でフロンティアベースラインO1を一致させる14Bモデルが得られます。 単純な取引ルールは、このキャリブレーションエッジを、O1(P = 0.037)の場合、\ $ 92の\ $ 127と\ $ 92に変換します。 これは、洗練されたRLVRメソッドが小規模なLLMを潜在的に経済的に価値のある予測ツールに変換できることを示しており、これをより大きなモデルにスケーリングすることに影響します。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has boosted math and coding in large language models, yet there has been little effort to extend RLVR into messier, real-world domains like forecasting. One sticking point is that outcome-based reinforcement learning for forecasting must learn from binary, delayed, and noisy rewards, a regime where standard fine-tuning is brittle. We show that outcome-only online RL on a 14B model can match frontier-scale accuracy and surpass it in calibration and hypothetical prediction market betting by adapting two leading algorithms, Group-Relative Policy Optimisation (GRPO) and ReMax, to the forecasting setting. Our adaptations remove per-question variance scaling in GRPO, apply baseline-subtracted advantages in ReMax, hydrate training with 100k temporally consistent synthetic questions, and introduce lightweight guard-rails that penalise gibberish, non-English responses and missing rationales, enabling a single stable pass over 110k events. Scaling ReMax to 110k questions and ensembling seven predictions yields a 14B model that matches frontier baseline o1 on accuracy on our holdout set (Brier = 0.193, p = 0.23) while beating it in calibration (ECE = 0.042, p < 0.001). A simple trading rule turns this calibration edge into \$127 of hypothetical profit versus \$92 for o1 (p = 0.037). This demonstrates that refined RLVR methods can convert small-scale LLMs into potentially economically valuable forecasting tools, with implications for scaling this to larger models.

arxiv情報

著者 Benjamin Turtel,Danny Franklin,Kris Skotheim,Luke Hewitt,Philipp Schoenegger
発行日 2025-05-26 15:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Outcome-based Reinforcement Learning to Predict the Future はコメントを受け付けていません