ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

要約

大規模な言語モデル(LLM)ベースのエージェントの出現により、自律機械学習(ML)エンジニアリングの開発が大幅に進歩しました。
ただし、ほとんどの既存のアプローチは、手動の迅速なエンジニアリングに大きく依存しており、多様な実験的経験に基づいて適応と最適化に失敗しています。
これに焦点を当て、初めて、LLMエージェントがオンライン強化学習(RL)を使用してMLタスクでのインタラクティブな実験を通じて学習する学習ベースのエージェントMLのパラダイムを探ります。
これを実現するために、3つの主要なコンポーネントを備えた新しいエージェントMLトレーニングフレームワークを提案します。(1)LLMエージェントが強化されたRL探索のための多様なアクションを生成できるようにする探索豊富な微調整。
(2)段階的なRLは、単一のアクションステップでのトレーニングを可能にし、エクスペリエンスコレクションを加速し、トレーニング効率を改善します。
(3)さまざまなMLフィードバックシグナルをRL最適化のための一貫した報酬に統合するエージェントML固有の報酬モジュール。
このフレームワークを活用して、自律ML用の7BサイズのQWEN-2.5 LLMによって駆動されるML-Agentをトレーニングします。
驚くべきことに、わずか9 mLのタスクで訓練されているにもかかわらず、7BサイズのML-Agentは671BサイズのDeepSeek-R1エージェントよりも優れています。
さらに、継続的なパフォーマンスの改善を達成し、例外的なクロスタスク一般化機能を実証します。

要約(オリジナル)

The emergence of large language model (LLM)-based agents has significantly advanced the development of autonomous machine learning (ML) engineering. However, most existing approaches rely heavily on manual prompt engineering, failing to adapt and optimize based on diverse experimental experiences. Focusing on this, for the first time, we explore the paradigm of learning-based agentic ML, where an LLM agent learns through interactive experimentation on ML tasks using online reinforcement learning (RL). To realize this, we propose a novel agentic ML training framework with three key components: (1) exploration-enriched fine-tuning, which enables LLM agents to generate diverse actions for enhanced RL exploration; (2) step-wise RL, which enables training on a single action step, accelerating experience collection and improving training efficiency; (3) an agentic ML-specific reward module, which unifies varied ML feedback signals into consistent rewards for RL optimization. Leveraging this framework, we train ML-Agent, driven by a 7B-sized Qwen-2.5 LLM for autonomous ML. Remarkably, despite being trained on merely 9 ML tasks, our 7B-sized ML-Agent outperforms the 671B-sized DeepSeek-R1 agent. Furthermore, it achieves continuous performance improvements and demonstrates exceptional cross-task generalization capabilities.

arxiv情報

著者 Zexi Liu,Jingyi Chai,Xinyu Zhu,Shuo Tang,Rui Ye,Bo Zhang,Lei Bai,Siheng Chen
発行日 2025-05-29 17:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering はコメントを受け付けていません

SC-LoRA: Balancing Efficient Fine-tuning and Knowledge Preservation via Subspace-Constrained LoRA

要約

パラメーター効率の高い微調整(PEFT)メソッド、特に低ランク適応(LORA)は、大規模な言語モデル(LLM)を効率的にカスタマイズするために不可欠です。
ただし、バニラロラは、収束速度が遅く、知識が問題を忘れていることに苦しんでいます。
最近の研究では、設計されたLORA初期化の力を活用して、微調整効率を高め、事前に訓練を受けたLLMの知識を維持しています。
ただし、これらの作品はどれも2つのケースに同時に対処できません。
この目的のために、効率的な微調整と知識保存の間のトレードオフをナビゲートするために設計された新しいLora初期化フレームワークであるサブスペースが制約したLora(SCLORA)を紹介します。
これを達成し、低ランクのサブスペースでトレーニング可能なLORAアダプターの出力を制約します。微調整データのコンテキスト情報が最も保存され、保存された知識のコンテキスト情報はバランスの取れた方法で最も保持されます。
このような制約により、訓練可能なウェイトは、保存された知識機能の損傷を避けながら、微調整データの主な機能に主に焦点を合わせることができます。
私たちの方法に関する理論分析を提供し、さまざまな下流タスクで安全保存や世界知識の保存を含む広範な実験を実施します。
私たちの実験では、SCLORAは優れた微調整パフォーマンスを提供することに成功し、現代のLORA初期化方法を上回り、知識を著しく減少させます。

要約(オリジナル)

Parameter-Efficient Fine-Tuning (PEFT) methods, particularly Low-Rank Adaptation (LoRA), are indispensable for efficiently customizing Large Language Models (LLMs). However, vanilla LoRA suffers from slow convergence speed and knowledge forgetting problems. Recent studies have leveraged the power of designed LoRA initialization, to enhance the fine-tuning efficiency, or to preserve knowledge in the pre-trained LLM. However, none of these works can address the two cases at the same time. To this end, we introduce Subspace-Constrained LoRA (SC-LoRA), a novel LoRA initialization framework engineered to navigate the trade-off between efficient fine-tuning and knowledge preservation. We achieve this by constraining the output of trainable LoRA adapters in a low-rank subspace, where the context information of fine-tuning data is most preserved while the context information of preserved knowledge is least retained, in a balanced way. Such constraint enables the trainable weights to primarily focus on the main features of fine-tuning data while avoiding damaging the preserved knowledge features. We provide theoretical analysis on our method, and conduct extensive experiments including safety preservation and world knowledge preservation, on various downstream tasks. In our experiments, SC-LoRA succeeds in delivering superior fine-tuning performance while markedly diminishing knowledge forgetting, surpassing contemporary LoRA initialization methods.

arxiv情報

著者 Minrui Luo,Fuhang Kuang,Yu Wang,Zirui Liu,Tianxing He
発行日 2025-05-29 17:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SC-LoRA: Balancing Efficient Fine-tuning and Knowledge Preservation via Subspace-Constrained LoRA はコメントを受け付けていません

Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

要約

大規模な言語モデルを人間に合わせることは、優先フィードバックの本質的に多面的な性質のために挑戦的です。
既存のアプローチは通常、これを多目的最適化問題としてフレーム化しますが、多くの場合、人間が実際に決定を下す方法を見落としています。
境界のある合理性に関する研究は、人間の意思決定が満足のいく戦略に続くことを示唆しています。
このギャップを橋渡しし、満足のいくアライメントの概念を動作させるために、sitalightを提案します。これは、二次基準のしきい値ベースの制約を満たしながら主要な目的を最大化することにより、アライメントの多面的な性質に対処する推論時間フレームワークです。
満足に基づく推論アライメントアプローチのサブオプティマリティ境界を導き出すことにより、理論的洞察を提供します。
複数のベンチマークでの広範な実験を通じて、Sitalignのパフォーマンスを経験的に検証します。
たとえば、無害性のしきい値を確保しながら有用性を最大化するという主要な目的を備えたPKU-Saferlhfデータセットでは、Sitalignは、GPT-4 Win-TieのレートのためにGPT-4 Win-Tieレートの点で22.3%のマージンで最先端の多数の客観的デコード戦略を上回ります。

要約(オリジナル)

Aligning large language models with humans is challenging due to the inherently multifaceted nature of preference feedback. While existing approaches typically frame this as a multi-objective optimization problem, they often overlook how humans actually make decisions. Research on bounded rationality suggests that human decision making follows satisficing strategies-optimizing primary objectives while ensuring others meet acceptable thresholds. To bridge this gap and operationalize the notion of satisficing alignment, we propose SITAlign: an inference time framework that addresses the multifaceted nature of alignment by maximizing a primary objective while satisfying threshold-based constraints on secondary criteria. We provide theoretical insights by deriving sub-optimality bounds of our satisficing based inference alignment approach. We empirically validate SITAlign’s performance through extensive experimentation on multiple benchmarks. For instance, on the PKU-SafeRLHF dataset with the primary objective of maximizing helpfulness while ensuring a threshold on harmlessness, SITAlign outperforms the state-of-the-art multi objective decoding strategy by a margin of 22.3% in terms of GPT-4 win-tie rate for helpfulness reward while adhering to the threshold on harmlessness.

arxiv情報

著者 Mohamad Chehade,Soumya Suvra Ghosal,Souradip Chakraborty,Avinash Reddy,Dinesh Manocha,Hao Zhu,Amrit Singh Bedi
発行日 2025-05-29 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time はコメントを受け付けていません

Keep Everyone Happy: Online Fair Division of Numerous Items with Few Copies

要約

このペーパーでは、学習者が公平性と効率の制約を満たしながら、エージェントのいずれかに割り当てられない不可分なアイテムを順次観察する複数のエージェントを含むオンラインフェア部門の問題の新しいバリアントを検討します。
既存のアルゴリズムは、十分に多数のコピーを備えた少数のアイテムを想定しています。これにより、騒々しいBanditフィードバックからのすべてのアイテムエージェントペアの適切なユーティリティ推定が保証されます。
ただし、この仮定は、多くの実際のアプリケーション、たとえばプラットフォームのサービスプロバイダー(エージェント)を数回(アイテムのコピー)しか使用しないユーザー(アイテム)が多いオンラインプラットフォームでは、すべてのアイテムエージェントペアのユーティリティを正確に推定することを困難にする可能性があります。
これに対処するために、ユーティリティはアイテムエージェント機能の未知の機能であると仮定します。
次に、以下の後悔の保証で、オンラインフェア部門を文脈上の盗賊問題としてモデル化するアルゴリズムを提案します。
実験結果は、提案されたアルゴリズムの有効性をさらに検証します。

要約(オリジナル)

This paper considers a novel variant of the online fair division problem involving multiple agents in which a learner sequentially observes an indivisible item that has to be irrevocably allocated to one of the agents while satisfying a fairness and efficiency constraint. Existing algorithms assume a small number of items with a sufficiently large number of copies, which ensures a good utility estimation for all item-agent pairs from noisy bandit feedback. However, this assumption may not hold in many real-life applications, for example, an online platform that has a large number of users (items) who use the platform’s service providers (agents) only a few times (a few copies of items), which makes it difficult to accurately estimate utilities for all item-agent pairs. To address this, we assume utility is an unknown function of item-agent features. We then propose algorithms that model online fair division as a contextual bandit problem, with sub-linear regret guarantees. Our experimental results further validate the effectiveness of the proposed algorithms.

arxiv情報

著者 Arun Verma,Indrajit Saha,Makoto Yokoo,Bryan Kian Hsiang Low
発行日 2025-05-29 17:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Keep Everyone Happy: Online Fair Division of Numerous Items with Few Copies はコメントを受け付けていません

Exposing the Impact of GenAI for Cybercrime: An Investigation into the Dark Side

要約

近年、生成的AIモデルの急速な進歩と民主化は、特にサイバーセキュリティの文脈において、安全性、倫理的リスク、および二重使用の懸念に関する重要な議論を引き起こしました。
逸話的に知られていますが、この論文は、技術の増幅とアフォーダンス理論の心理的枠組みを通じて現象を調べることにより、悪意のあるインターネット関連の活動とサイバー犯罪との生成的AIとサイバー犯罪に関する経験的証拠を提供します。
中断された時系列分析を備えた準実験設計を使用して、1つの一般的なデータセットと1つの暗号通貨に焦点を当てた2つのデータセットを分析して、サイバー犯罪における生成的AIの役割を経験的に評価します。
調査結果は、コントロールのバランスを取り、イノベーションの促進、政策立案者の導き、AI開発者とサイバーセキュリティの専門家に通知する戦略の必要性を強調し、リスクを軽減しながらAIの利益を最大化するために一般の人々に教育することにより、AIガバナンスに関する継続的な議論に貢献します。

要約(オリジナル)

In recent years, the rapid advancement and democratization of generative AI models have sparked significant debate over safety, ethical risks, and dual-use concerns, particularly in the context of cybersecurity. While anecdotally known, this paper provides empirical evidence regarding generative AI’s association with malicious internet-related activities and cybercrime by examining the phenomenon through psychological frameworks of technological amplification and affordance theory. Using a quasi-experimental design with interrupted time series analysis, we analyze two datasets, one general and one cryptocurrency-focused, to empirically assess generative AI’s role in cybercrime. The findings contribute to ongoing discussions about AI governance by balancing control and fostering innovation, underscoring the need for strategies to guide policymakers, inform AI developers and cybersecurity professionals, and educate the public to maximize AI’s benefits while mitigating its risks.

arxiv情報

著者 Truong,Luu,Binny M. Samuel
発行日 2025-05-29 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC | Exposing the Impact of GenAI for Cybercrime: An Investigation into the Dark Side はコメントを受け付けていません

ATLAS: Learning to Optimally Memorize the Context at Test Time

要約

主にコンテキスト内検索タスクでの有効性と大規模な学習能力により、トランスはシーケンスモデリングで最も人気のあるバックボーンとして確立されています。
しかし、それらの二次記憶と時間の複雑さは、適用性をより長いシーケンスに縛り付けたため、研究者に最新の再発性ニューラルネットワーク(長期再発メモリモジュール)などの効果的な代替アーキテクチャを探求する動機付けをしました。
多様なダウンストリームタスクでの最近の成功にもかかわらず、彼らは長いコンテキストの理解と長いシーケンスへの外挿を必要とするタスクで苦労しています。
これらの欠点は、デザインの3つのばらばらの側面から来ていることがわかります。(1)メモリのアーキテクチャと入力の特徴マッピングによって制限されている限られたメモリ容量。
(2)更新のオンライン性、つまり、最後の入力に対してのみメモリを最適化する。
(3)固定サイズのメモリの表現力の低い管理。
これら3つの側面すべてを強化するために、現在および過去のトークンに基づいてメモリを最適化し、長期メモリモデルのオンライン性を克服することにより、コンテキストを記憶することを学ぶ大容量の長期メモリモジュールであるAtlasを紹介します。
この洞察に基づいて、私たちは、元の変圧器アーキテクチャの厳格な一般化であるディープトランスフォーマーと呼ばれる変圧器のようなアーキテクチャの新しいファミリーを紹介します。
言語モデリング、常識的推論、リコール集約的、および長いコンテストの理解タスクに関する実験結果は、Atlasがトランスと最近の線形再発モデルのパフォーマンスを上回ることを示しています。
Atlasはさらに、タイタンの長いコンテキストパフォーマンスを改善し、Babilongベンチマークの10mのコンテキスト長で+80 \%精度を達成します。

要約(オリジナル)

Transformers have been established as the most popular backbones in sequence modeling, mainly due to their effectiveness in in-context retrieval tasks and the ability to learn at scale. Their quadratic memory and time complexity, however, bound their applicability in longer sequences and so has motivated researchers to explore effective alternative architectures such as modern recurrent neural networks (a.k.a long-term recurrent memory module). Despite their recent success in diverse downstream tasks, they struggle in tasks that requires long context understanding and extrapolation to longer sequences. We observe that these shortcomings come from three disjoint aspects in their design: (1) limited memory capacity that is bounded by the architecture of memory and feature mapping of the input; (2) online nature of update, i.e., optimizing the memory only with respect to the last input; and (3) less expressive management of their fixed-size memory. To enhance all these three aspects, we present ATLAS, a long-term memory module with high capacity that learns to memorize the context by optimizing the memory based on the current and past tokens, overcoming the online nature of long-term memory models. Building on this insight, we present a new family of Transformer-like architectures, called DeepTransformers, that are strict generalizations of the original Transformer architecture. Our experimental results on language modeling, common-sense reasoning, recall-intensive, and long-context understanding tasks show that ATLAS surpasses the performance of Transformers and recent linear recurrent models. ATLAS further improves the long context performance of Titans, achieving +80\% accuracy in 10M context length of BABILong benchmark.

arxiv情報

著者 Ali Behrouz,Zeman Li,Praneeth Kacham,Majid Daliri,Yuan Deng,Peilin Zhong,Meisam Razaviyayn,Vahab Mirrokni
発行日 2025-05-29 17:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ATLAS: Learning to Optimally Memorize the Context at Test Time はコメントを受け付けていません

Comparative of Genetic Fuzzy regression techniques for aeroacoustic phenomenons

要約

この研究では、航空障害の重要な問題を抱える航空act、自動車、ドローンアプリケーションに重要な影響を及ぼす航空フォイルによって生成された自己ノイズをモデル化するために、遺伝的ファジーシステム(GFS)の応用を調査しています。
公開されている翼のセルフノイズデータセットを使用して、さまざまなファジー回帰戦略が調査され、比較されます。
この論文では、ルール密度が高く、カスケードジェノティファジーツリー(GFT)アーキテクチャ、およびモデルの複雑さを減らすためにファジーCマーン(FCM)に基づく新しいクラスター化されたアプローチを備えたブルートフォースタカギスゲノカン(TSK)ファジーシステムを評価します。
これは、複雑なエアロの偶然の現象の効果的な回帰ツールとしてのクラスタリング補助ファジー推論の生存率を強調しています。
キーワード:ファジーロジック、回帰、カスケードシステム、クラスタリング、AI。

要約(オリジナル)

This study investigates the application of Genetic Fuzzy Systems (GFS) to model the self-noise generated by airfoils, a key issue in aeroaccoustics with significant implications for aerospace, automotive and drone applications. Using the publicly available Airfoil Self Noise dataset, various Fuzzy regression strategies are explored and compared. The paper evaluates a brute force Takagi Sugeno Kang (TSK) fuzzy system with high rule density, a cascading Geneti Fuzzy Tree (GFT) architecture and a novel clustered approach based on Fuzzy C-means (FCM) to reduce the model’s complexity. This highlights the viability of clustering assisted fuzzy inference as an effective regression tool for complex aero accoustic phenomena. Keywords : Fuzzy logic, Regression, Cascading systems, Clustering and AI.

arxiv情報

著者 Hugo Henry,Kelly Cohen
発行日 2025-05-29 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | Comparative of Genetic Fuzzy regression techniques for aeroacoustic phenomenons はコメントを受け付けていません

PhyX: Does Your Model Have the ‘Wits’ for Physical Reasoning?

要約

既存のベンチマークは、インテリジェンスの重要な側面をキャプチャできません。物理的推論、ドメインの知識を組み合わせる統合された能力、象徴的な推論、および実際の制約の理解。
このギャップに対処するために、Phyxを紹介します。視覚シナリオで物理学に基づいた推論のモデル容量を評価するために設計された最初の大規模ベンチマークです。
Phyxには、25のサブドメインと6つのコア物理学ドメインにまたがる6つの推論タイプにまたがる3Kの綿密にキュレーションされたマルチモーダル質問が含まれています:熱力学、電磁気、メカニクス、現代物理学、光学、および波&音響。
私たちの包括的な評価では、最先端のモデルでさえ、物理的な推論に大幅に苦労しています。
GPT-4O、Claude3.7-Sonnet、およびGPT-O4-MINIは、人間の専門家と比較して29%を超えるパフォーマンスのギャップがそれぞれ32.5%、42.2%、45.8%の精度しか得られません。
私たちの分析では、現在のモデルの重大な制限を明らかにしています。記憶された懲戒知識への過度の依存、数学的定式化への過度の依存、および真の身体的理解ではなく、表面レベルの視覚パターンの一致です。
物理的な推論能力を徹底的に調べるために、微調整された統計、詳細なケーススタディ、および複数の評価パラダイムを通じて詳細な分析を提供します。
再現性を確保するために、Vlmevalkitなどの広く使用されているツールキットに基づいて互換性のある評価プロトコルを実装し、ワンクリック評価を可能にします。
詳細については、https://phyx-bench.github.io/のプロジェクトページをご覧ください。

要約(オリジナル)

Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5%, 42.2%, and 45.8% accuracy respectively-performance gaps exceeding 29% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation. More details are available on our project page: https://phyx-bench.github.io/.

arxiv情報

著者 Hui Shen,Taiqiang Wu,Qi Han,Yunta Hsieh,Jizhou Wang,Yuyue Zhang,Yuxin Cheng,Zijian Hao,Yuansheng Ni,Xin Wang,Zhongwei Wan,Kai Zhang,Wendong Xu,Jing Xiong,Ping Luo,Wenhu Chen,Chaofan Tao,Zhuoqing Mao,Ngai Wong
発行日 2025-05-29 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | PhyX: Does Your Model Have the ‘Wits’ for Physical Reasoning? はコメントを受け付けていません

DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning

要約

定理証明は、大規模な言語モデル(LLM)の複雑な推論能力を評価するための主要なテストベッドとして機能します。
ただし、従来の自動化された定理(ATP)アプローチは、トレーニング前に獲得した非公式の自然言語知識から派生したLLMSの強度とは不十分な正式な証明システムに大きく依存しています。
この作業では、LLM数学的推論を強化するために自然言語を活用する包括的な非公式の定理枠組みである深い理論を提案します。
Deeptheoremには、121kの高品質のIMOレベルの非公式定理と、正確さ、難易度、およびトピックカテゴリに厳密に注釈が付けられた多様な数学ドメインにまたがる証明で構成される大規模なベンチマークデータセットが含まれています。
私たちは、堅牢な数学的推論を奨励するために、検証された定理バリアントを活用して、非公式の定理を実証するために明示的に調整された新しい強化学習戦略(RL-Zero)を考案します。
さらに、証明の正確性と推論ステップの質を調べる包括的な結果とプロセス評価メトリックを提案します。
広範な実験分析により、深部理論により、既存のデータセットや監視された微調整プロトコルと比較してLLM定理プロービングパフォーマンスが大幅に向上し、最先端の精度と推論品質を達成します。
私たちの調査結果は、自動化された非公式の定理と数学的探査を根本的に前進させる深い理論の可能性を強調しています。

要約(オリジナル)

Theorem proving serves as a major testbed for evaluating complex reasoning abilities in large language models (LLMs). However, traditional automated theorem proving (ATP) approaches rely heavily on formal proof systems that poorly align with LLMs’ strength derived from informal, natural language knowledge acquired during pre-training. In this work, we propose DeepTheorem, a comprehensive informal theorem-proving framework exploiting natural language to enhance LLM mathematical reasoning. DeepTheorem includes a large-scale benchmark dataset consisting of 121K high-quality IMO-level informal theorems and proofs spanning diverse mathematical domains, rigorously annotated for correctness, difficulty, and topic categories, accompanied by systematically constructed verifiable theorem variants. We devise a novel reinforcement learning strategy (RL-Zero) explicitly tailored to informal theorem proving, leveraging the verified theorem variants to incentivize robust mathematical inference. Additionally, we propose comprehensive outcome and process evaluation metrics examining proof correctness and the quality of reasoning steps. Extensive experimental analyses demonstrate DeepTheorem significantly improves LLM theorem-proving performance compared to existing datasets and supervised fine-tuning protocols, achieving state-of-the-art accuracy and reasoning quality. Our findings highlight DeepTheorem’s potential to fundamentally advance automated informal theorem proving and mathematical exploration.

arxiv情報

著者 Ziyin Zhang,Jiahao Xu,Zhiwei He,Tian Liang,Qiuzhi Liu,Yansi Li,Linfeng Song,Zhengwen Liang,Zhuosheng Zhang,Rui Wang,Zhaopeng Tu,Haitao Mi,Dong Yu
発行日 2025-05-29 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning はコメントを受け付けていません

Differential Information: An Information-Theoretic Perspective on Preference Optimization

要約

直接選好最適化(DPO)は、監督された方法で人間の好みを整合するための標準的な手法となっています。
その経験的な成功にもかかわらず、その対数比率の報酬パラメーター化の背後にある理論的正当化は不完全なままです。
この作業では、差別的な情報分布(DID)を利用することにより、このギャップに対処します。ポリシーの更新中に得られた情報をキャプチャするトークンシーケンス上の分布。
まず、優先ラベルが参照ポリシーをターゲットポリシーに変換するために必要な微分情報をエンコードすると、DPOのログ比報酬が優先最適化を介してターゲットポリシーを学習するためのユニークな最適な形式として浮上することを示します。
この結果は、当然、拒否された応答よりも最適なサンプリング分布のために閉じた式式をもたらします。
第二に、差分情報をエンコードする選好の条件は、ログマージン順序のポリシーに関する暗黙の仮定に基本的にリンクされていることがわかります。
最後に、DIDのエントロピーを分析することにより、低エントロピーの微分情報を学習することでポリシーの分布がどのように強化され、高エントロピーの微分情報がスムージング効果を誘発する方法を特徴付けます。
合成実験における理論的発見を検証し、それらを実際の指導に従うデータセットに拡張します。
我々の結果は、低エントロピーの微分情報を学習する一方で、一般的な指導の公開には、高エントロピーの差別的情報を学ぶことが知識集約的な質問の回答に役立つことを学ぶことが重要であることを示唆しています。
全体として、私たちの研究は、DPOの目的、優先データの構造、および結果として生じる差別的情報のレンズを通じて発生する政策行動に関する統一された視点を提示します。

要約(オリジナル)

Direct Preference Optimization (DPO) has become a standard technique for aligning language models with human preferences in a supervised manner. Despite its empirical success, the theoretical justification behind its log-ratio reward parameterization remains incomplete. In this work, we address this gap by utilizing the Differential Information Distribution (DID): a distribution over token sequences that captures the information gained during policy updates. First, we show that when preference labels encode the differential information required to transform a reference policy into a target policy, the log-ratio reward in DPO emerges as the uniquely optimal form for learning the target policy via preference optimization. This result naturally yields a closed-form expression for the optimal sampling distribution over rejected responses. Second, we find that the condition for preferences to encode differential information is fundamentally linked to an implicit assumption regarding log-margin ordered policies-an inductive bias widely used in preference optimization yet previously unrecognized. Finally, by analyzing the entropy of the DID, we characterize how learning low-entropy differential information reinforces the policy distribution, while high-entropy differential information induces a smoothing effect, which explains the log-likelihood displacement phenomenon. We validate our theoretical findings in synthetic experiments and extend them to real-world instruction-following datasets. Our results suggest that learning high-entropy differential information is crucial for general instruction-following, while learning low-entropy differential information benefits knowledge-intensive question answering. Overall, our work presents a unifying perspective on the DPO objective, the structure of preference data, and resulting policy behaviors through the lens of differential information.

arxiv情報

著者 Yunjae Won,Hyunji Lee,Hyeonbin Hwang,Minjoon Seo
発行日 2025-05-29 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Differential Information: An Information-Theoretic Perspective on Preference Optimization はコメントを受け付けていません