Kimina-Prover Preview: Towards Large Formal Reasoning Models with Reinforcement Learning

要約

このプレビューリリースで紹介されているように、正式な定理を証明するための新しい推論主導型の探索パラダイムを開拓する大規模な言語モデルであるKimina-Prover Previewを紹介します。
QWEN2.5-72Bの大規模な強化学習パイプラインで訓練されたKimina-Proverは、構造化された推論パターンを使用することにより、リーン4プルーフ生成の強力なパフォーマンスを示します。
このアプローチにより、モデルは、無駄のない、繰り返し生成および洗練された証明ステップで人間の問題解決戦略をエミュレートすることができます。
Kimina-Proverは、Minif2Fベンチマークで新しい最先端のベンチマークを設定し、Pass@8192で80.7%に達しました。
ベンチマークのパフォーマンスの改善を超えて、私たちの作業はいくつかの重要な洞察をもたらします。(1)キミーナプロバーが高いサンプル効率を示し、最小限のサンプリング(パス@1)でも強力な結果をもたらし、そのユニークな推論パターンとRLトレーニングに起因する計算予算で効果的にスケーリングします。
(2)モデルサイズの明確なパフォーマンススケーリングを示します。これは、正式な数学の神経定理プローバーには以前は観察されていなかった傾向です。
(3)従来の検索アルゴリズムとは異なる学習された推論スタイルは、正式な検証と非公式の数学的直観と​​のギャップを埋める可能性を示しています。
キミーナプロバーの1.5bおよび7bパラメーターを備えたオープンソース蒸留バージョン

要約(オリジナル)

We introduce Kimina-Prover Preview, a large language model that pioneers a novel reasoning-driven exploration paradigm for formal theorem proving, as showcased in this preview release. Trained with a large-scale reinforcement learning pipeline from Qwen2.5-72B, Kimina-Prover demonstrates strong performance in Lean 4 proof generation by employing a structured reasoning pattern we term \textit{formal reasoning pattern}. This approach allows the model to emulate human problem-solving strategies in Lean, iteratively generating and refining proof steps. Kimina-Prover sets a new state-of-the-art on the miniF2F benchmark, reaching 80.7% with pass@8192. Beyond improved benchmark performance, our work yields several key insights: (1) Kimina-Prover exhibits high sample efficiency, delivering strong results even with minimal sampling (pass@1) and scaling effectively with computational budget, stemming from its unique reasoning pattern and RL training; (2) we demonstrate clear performance scaling with model size, a trend previously unobserved for neural theorem provers in formal mathematics; (3) the learned reasoning style, distinct from traditional search algorithms, shows potential to bridge the gap between formal verification and informal mathematical intuition. We open source distilled versions with 1.5B and 7B parameters of Kimina-Prover

arxiv情報

著者 Haiming Wang,Mert Unsal,Xiaohan Lin,Mantas Baksys,Junqi Liu,Marco Dos Santos,Flood Sung,Marina Vinyes,Zhenzhe Ying,Zekai Zhu,Jianqiao Lu,Hugues de Saxcé,Bolton Bailey,Chendong Song,Chenjun Xiao,Dehao Zhang,Ebony Zhang,Frederick Pu,Han Zhu,Jiawei Liu,Jonas Bayer,Julien Michel,Longhui Yu,Léo Dreyfus-Schmidt,Lewis Tunstall,Luigi Pagani,Moreira Machado,Pauline Bourigault,Ran Wang,Stanislas Polu,Thibaut Barroyer,Wen-Ding Li,Yazhe Niu,Yann Fleureau,Yangyang Hu,Zhouliang Yu,Zihan Wang,Zhilin Yang,Zhengying Liu,Jia Li
発行日 2025-04-15 16:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Kimina-Prover Preview: Towards Large Formal Reasoning Models with Reinforcement Learning はコメントを受け付けていません

Neural Networks for on-chip Model Predictive Control: a Method to Build Optimized Training Datasets and its application to Type-1 Diabetes

要約

モデル予測制御(MPC)アルゴリズムとして動作するニューラルネットワーク(NNS)のトレーニングは、制約された埋め込みデバイスにそれらを実装する効果的な方法です。
入力がシステムの状態を表す大量の入出力データを収集し、出力がMPCで生成された制御アクションであるため、NNSは計算コストの一部でMPCの動作を複製するようにトレーニングできます。
ただし、トレーニングデータの構成は最終的なNNの精度に大きく影響しますが、体系的に最適化する方法は未定のままです。
この論文では、理想的なトレーニングセットとして最適にサンプリングされたデータセット(OSD)の概念を紹介し、それらを生成するための効率的なアルゴリズムを提示します。
OSDは、(i)既存のMPC情報を特定の数値解像度まで保存するすべての利用可能なデータのパラメーター化されたサブセットであり、(ii)重複またはほぼ重複状態を回避し、(iii)飽和または完全になります。
1型糖尿病での自動インスリン送達のためにバージニア大学のMPCアルゴリズムを再現するためにNNSをトレーニングすることにより、OSDの有効性を実証し、最終精度が4倍改善されます。
特に、2つのOSD訓練を受けたNNSは、直接的なヒトインスリン投与のための最初のNNベースのコントロールアルゴリズムとして、臨床検査のための調節クリアランスを受けました。
この方法論は、リソースに制約されている埋め込みプラットフォームに高度な最適化を実装するための新しい経路を開き、複雑なアルゴリズムがどのように展開されるかに革命をもたらす可能性があります。

要約(オリジナル)

Training Neural Networks (NNs) to behave as Model Predictive Control (MPC) algorithms is an effective way to implement them in constrained embedded devices. By collecting large amounts of input-output data, where inputs represent system states and outputs are MPC-generated control actions, NNs can be trained to replicate MPC behavior at a fraction of the computational cost. However, although the composition of the training data critically influences the final NN accuracy, methods for systematically optimizing it remain underexplored. In this paper, we introduce the concept of Optimally-Sampled Datasets (OSDs) as ideal training sets and present an efficient algorithm for generating them. An OSD is a parametrized subset of all the available data that (i) preserves existing MPC information up to a certain numerical resolution, (ii) avoids duplicate or near-duplicate states, and (iii) becomes saturated or complete. We demonstrate the effectiveness of OSDs by training NNs to replicate the University of Virginia’s MPC algorithm for automated insulin delivery in Type-1 Diabetes, achieving a four-fold improvement in final accuracy. Notably, two OSD-trained NNs received regulatory clearance for clinical testing as the first NN-based control algorithm for direct human insulin dosing. This methodology opens new pathways for implementing advanced optimizations on resource-constrained embedded platforms, potentially revolutionizing how complex algorithms are deployed.

arxiv情報

著者 Alberto Castillo,Elliot Pryor,Anas El Fathi,Boris Kovatchev,Marc Breton
発行日 2025-04-15 16:25:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY | Neural Networks for on-chip Model Predictive Control: a Method to Build Optimized Training Datasets and its application to Type-1 Diabetes はコメントを受け付けていません

DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks

要約

LLMが統合されたアプリケーションとエージェントは、迅速な注射攻撃に対して脆弱であり、攻撃者が入力にプロンプ​​トを注入して、攻撃者が決定する出力を誘導します。
検出方法は、指定された入力が注入プロンプトによって汚染されているかどうかを判断することを目的としています。
ただし、既存の検出方法は、適応的な攻撃は言うまでもなく、最先端の攻撃に対する有効性が限られています。
この作業では、迅速な噴射攻撃を検出するゲーム理論的方法であるDatasentinelを提案します。
具体的には、DatasentinelはLLMを微調整して、検出を回避するために戦略的に適合した注入プロンプトで汚染された入力を検出します。
これを、LLMを微調整して強力な適応攻撃を検出する目的で、Minimax最適化問題として定式化します。
さらに、内側の最大と外側の問題を交互に行うことにより、ミニマックス最適化問題を解決するための勾配ベースの方法を提案します。
複数のベンチマークデータセットとLLMでの評価結果は、Datasentinelが既存および適応迅速な噴射攻撃の両方を効果的に検出することを示しています。

要約(オリジナル)

LLM-integrated applications and agents are vulnerable to prompt injection attacks, where an attacker injects prompts into their inputs to induce attacker-desired outputs. A detection method aims to determine whether a given input is contaminated by an injected prompt. However, existing detection methods have limited effectiveness against state-of-the-art attacks, let alone adaptive ones. In this work, we propose DataSentinel, a game-theoretic method to detect prompt injection attacks. Specifically, DataSentinel fine-tunes an LLM to detect inputs contaminated with injected prompts that are strategically adapted to evade detection. We formulate this as a minimax optimization problem, with the objective of fine-tuning the LLM to detect strong adaptive attacks. Furthermore, we propose a gradient-based method to solve the minimax optimization problem by alternating between the inner max and outer min problems. Our evaluation results on multiple benchmark datasets and LLMs show that DataSentinel effectively detects both existing and adaptive prompt injection attacks.

arxiv情報

著者 Yupei Liu,Yuqi Jia,Jinyuan Jia,Dawn Song,Neil Zhenqiang Gong
発行日 2025-04-15 16:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks はコメントを受け付けていません

Teaching Large Language Models to Reason through Learning and Forgetting

要約

大きな言語モデルでの推論時間検索を活用することは、複雑な数学的および推論的な問題を解決する訓練されたモデルの能力をさらに強化するのに効果的であることが証明されています。
ただし、このアプローチは、モデルが複数の候補ソリューションを生成および評価して実行可能な推論パスを特定する必要があるため、計算コストと推論時間を大幅に増加させます。
これに対処するために、多様な検索方法に由来する(学習)と失敗した推論パス(忘却)の両方を使用して、検索機能をモデルに直接統合する効果的なアプローチを提案します。
これらのデータでモデルを微調整することは簡単に思えるかもしれませんが、重要な問題を特定します。モデルの検索機能は、微調整が素朴に実行されると急速に劣化する傾向があります。
この劣化は、学習率が小さいことにより、実質的に緩和できることを示しています。
挑戦的なゲームオブ24およびカウントダウン数学の推論ベンチマークに関する広範な実験は、このアプローチが標準の微調整と推論時間検索ベースラインの両方を上回るだけでなく、推論時間を180 $ \ Times $を大幅に削減することを示しています。

要約(オリジナル)

Leveraging inference-time search in large language models has proven effective in further enhancing a trained model’s capability to solve complex mathematical and reasoning problems. However, this approach significantly increases computational costs and inference time, as the model must generate and evaluate multiple candidate solutions to identify a viable reasoning path. To address this, we propose an effective approach that integrates search capabilities directly into the model by fine-tuning it using both successful (learning) and failed reasoning paths (forgetting) derived from diverse search methods. While fine-tuning the model with these data might seem straightforward, we identify a critical issue: the model’s search capability tends to degrade rapidly if fine-tuning is performed naively. We show that this degradation can be substantially mitigated by employing a smaller learning rate. Extensive experiments on the challenging Game-of-24 and Countdown mathematical reasoning benchmarks show that our approach not only outperforms both standard fine-tuning and inference-time search baselines but also significantly reduces inference time by 180$\times$.

arxiv情報

著者 Tianwei Ni,Allen Nie,Sapana Chaudhary,Yao Liu,Huzefa Rangwala,Rasool Fakoor
発行日 2025-04-15 16:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Teaching Large Language Models to Reason through Learning and Forgetting はコメントを受け付けていません

OpenTuringBench: An Open-Model-based Benchmark and Framework for Machine-Generated Text Detection and Attribution

要約

オープンな言語モデル(OLLM)は、生成AIアプリケーションでますます活用されており、出力を検出するための新しい課題を提起しています。
OLLMSに基づいた新しいベンチマークであるOpenturingBenchを提案します。これは、チューリングテストおよび著者の帰属問題で機械で生成されたテキスト検出器を訓練および評価するように設計されています。
OpenturingBenchは、OLLMSの代表セットに焦点を当てており、人間/機械操作のテキスト、ドメイン外のテキスト、以前に見えなかったモデルのテキストなど、多くの挑戦的な評価タスクを備えています。
また、OLLMベースのマシンで生成されたテキストを検出および属性するための対照的な学習フレームワークであるOTBDETECTORも提供します。
結果は、検出器がさまざまなタスクにわたって顕著な機能を達成し、ほとんどの既存の検出器を上回る驚くべき機能を達成するため、結果の関連性とさまざまな程度の難易度を強調しています。
リソースは、https://huggingface.co/datasets/mlnteam-unical/openturingbenchでフェイスリポジトリを抱き締めるopenturingbenchで入手できます

要約(オリジナル)

Open Large Language Models (OLLMs) are increasingly leveraged in generative AI applications, posing new challenges for detecting their outputs. We propose OpenTuringBench, a new benchmark based on OLLMs, designed to train and evaluate machine-generated text detectors on the Turing Test and Authorship Attribution problems. OpenTuringBench focuses on a representative set of OLLMs, and features a number of challenging evaluation tasks, including human/machine-manipulated texts, out-of-domain texts, and texts from previously unseen models. We also provide OTBDetector, a contrastive learning framework to detect and attribute OLLM-based machine-generated texts. Results highlight the relevance and varying degrees of difficulty of the OpenTuringBench tasks, with our detector achieving remarkable capabilities across the various tasks and outperforming most existing detectors. Resources are available on the OpenTuringBench Hugging Face repository at https://huggingface.co/datasets/MLNTeam-Unical/OpenTuringBench

arxiv情報

著者 Lucio La Cava,Andrea Tagarelli
発行日 2025-04-15 16:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, physics.soc-ph | OpenTuringBench: An Open-Model-based Benchmark and Framework for Machine-Generated Text Detection and Attribution はコメントを受け付けていません

A Winner-Takes-All Mechanism for Event Generation

要約

Winner-Takes-All計算と組み合わせて、ニューロンの本質的なリバウンド興奮性を活用する中央パターンジェネレーター設計の新しいフレームワークを提示します。
私たちのアプローチは、設計可能な興奮性相互作用によって強化されたすべての抑制接続を採用するシンプルでありながら強力なネットワークアーキテクチャ内で、意思決定とリズミカルなパターン生成を統合します。
この設計は、実装の容易さ、適応性、堅牢性に関する大きな利点を提供します。
適応相と周波数変調を示すリング発振器モデルを通じてその有効性を実証し、神経型システムとロボット工学のアプリケーションに特に有望なフレームワークを実現します。

要約(オリジナル)

We present a novel framework for central pattern generator design that leverages the intrinsic rebound excitability of neurons in combination with winner-takes-all computation. Our approach unifies decision-making and rhythmic pattern generation within a simple yet powerful network architecture that employs all-to-all inhibitory connections enhanced by designable excitatory interactions. This design offers significant advantages regarding ease of implementation, adaptability, and robustness. We demonstrate its efficacy through a ring oscillator model, which exhibits adaptive phase and frequency modulation, making the framework particularly promising for applications in neuromorphic systems and robotics.

arxiv情報

著者 Yongkang Huo,Fuvio Forni,Rodolphe Sepulchre
発行日 2025-04-15 16:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY | A Winner-Takes-All Mechanism for Event Generation はコメントを受け付けていません

Trajectory Encoding Temporal Graph Networks

要約

時間グラフネットワーク(TGN)は、リンク予測やノード分類などの動的グラフタスクで大きな成功を示しています。
両方のタスクは、モデルが既知のノード間のリンクを予測し、誘導設定で、以前に見えないノードに学習したパターンを一般化する導入設定で構成されます。
既存のTGN設計は、これらのデュアルシナリオの下でジレンマに直面しています。
匿名のTGNは、時間的情報と構造情報のみに依存しており、強力な帰納的一般化を提供しますが、既知のノードを区別するのに苦労しています。
対照的に、非匿名のTGNはノード機能を活用して、トランスダクティブタスクに優れているが、新しいノードに適応できない。
この課題に対処するために、TGN(TETGN)をコードする軌跡を提案します。
私たちのアプローチでは、自動的に拡張可能なノード識別子(ID)が学習可能な時間的位置機能として導入され、これらのIDを通過するメッセージを実行して、各ノードの歴史的コンテキストをキャプチャします。
この軌跡を意識したモジュールをマルチヘッドの注意を使用して標準のTGNと統合することにより、TETGNは、導入精度と誘導的一般化と効果的にバランスを取ります。
3つの実際のデータセットでの実験結果は、TETGNがリンク予測タスクとノード分類タスクの両方の強力なベースラインを大幅に上回ることを示しており、動的グラフ学習の匿名モデルと非匿名モデルの利点を統合する能力を示しています。

要約(オリジナル)

Temporal Graph Networks (TGNs) have demonstrated significant success in dynamic graph tasks such as link prediction and node classification. Both tasks comprise transductive settings, where the model predicts links among known nodes, and in inductive settings, where it generalises learned patterns to previously unseen nodes. Existing TGN designs face a dilemma under these dual scenarios. Anonymous TGNs, which rely solely on temporal and structural information, offer strong inductive generalisation but struggle to distinguish known nodes. In contrast, non-anonymous TGNs leverage node features to excel in transductive tasks yet fail to adapt to new nodes. To address this challenge, we propose Trajectory Encoding TGN (TETGN). Our approach introduces automatically expandable node identifiers (IDs) as learnable temporal positional features and performs message passing over these IDs to capture each node’s historical context. By integrating this trajectory-aware module with a standard TGN using multi-head attention, TETGN effectively balances transductive accuracy with inductive generalisation. Experimental results on three real-world datasets show that TETGN significantly outperforms strong baselines on both link prediction and node classification tasks, demonstrating its ability to unify the advantages of anonymous and non-anonymous models for dynamic graph learning.

arxiv情報

著者 Jiafeng Xiong,Rizos Sakellariou
発行日 2025-04-15 16:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Trajectory Encoding Temporal Graph Networks はコメントを受け付けていません

AI threats to national security can be countered through an incident regime

要約

AI能力の最近の進歩は、AIシステムが国家安全保障に脅威を与える可能性があるという懸念を高めました。たとえば、悪意のあるアクターが重要な国家インフラストラクチャでサイバー攻撃を実行したり、自律AIシステムの制御を紛失したりすることを容易にすることにより。
並行して、米国の連邦議員は、同様の脅威を特定して対抗するために、初期の「AI事件体制」を提案しています。
この論文では、これら2つの傾向を統合し、AIシステムからの潜在的な国家安全保障の脅威に対抗することを目的とした法的に義務付けられた展開後のAI事件制度のタイムリーな提案を提示します。
「セキュリティクリティカル」の概念を導入して、「セキュリティクリティカル」が民間の原子力発電、航空、航空科学の二重使用懸念研究、フロンティアAI開発について説明する前に、国家安全保障に極度のリスクをもたらす医師を説明する「セキュリティクリティカル」の概念を導入することから始めます。
次に、AIインシデント制度の提案を詳細に提示し、他の「セキュリティクリティカルな」セクターにおける米国の国内事件体制との類似性を実証することにより、提案の各要素を正当化します。
最後に、提案されたAI事件制度がAIサイバー事件を扱う仮説的なシナリオをスケッチします。
提案されているAIインシデント体制は、3つのフェーズに分割されています。
最初のフェーズは、「AIインシデント」としてカウントされるものの新しい運用化を中心に展開します。AIプロバイダーは、フロンティアAIシステムを展開する前に「国家安全保障ケース」を作成する必要があることをお勧めします。
第2段階と第3フェーズでは、AIプロバイダーが事件について政府機関に通知する必要があり、政府機関が国家安全保障に対する将来の脅威に対抗するために、AIプロバイダーのセキュリティと安全手順の修正に関与すべきであることを明らかにしています。

要約(オリジナル)

Recent progress in AI capabilities has heightened concerns that AI systems could pose a threat to national security, for example, by making it easier for malicious actors to perform cyberattacks on critical national infrastructure, or through loss of control of autonomous AI systems. In parallel, federal legislators in the US have proposed nascent ‘AI incident regimes’ to identify and counter similar threats. In this paper, we consolidate these two trends and present a timely proposal for a legally mandated post-deployment AI incident regime that aims to counter potential national security threats from AI systems. We start the paper by introducing the concept of ‘security-critical’ to describe doctors that pose extreme risks to national security, before arguing that ‘security-critical’ describes civilian nuclear power, aviation, life science dual-use research of concern, and frontier AI development. We then present in detail our AI incident regime proposal, justifying each component of the proposal by demonstrating its similarity to US domestic incident regimes in other ‘security-critical’ sectors. Finally, we sketch a hypothetical scenario where our proposed AI incident regime deals with an AI cyber incident. Our proposed AI incident regime is split into three phases. The first phase revolves around a novel operationalization of what counts as an ‘AI incident’ and we suggest that AI providers must create a ‘national security case’ before deploying a frontier AI system. The second and third phases spell out that AI providers should notify a government agency about incidents, and that the government agency should be involved in amending AI providers’ security and safety procedures, in order to counter future threats to national security.

arxiv情報

著者 Alejandro Ortega
発行日 2025-04-15 17:13:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | AI threats to national security can be countered through an incident regime はコメントを受け付けていません

OmniXAS: A Universal Deep-Learning Framework for Materials X-ray Absorption Spectra

要約

X線吸収分光法(XAS)は、吸収原子の局所化学環境を調査するための強力な特性評価技術です。
ただし、XASデータを分析することは重要な課題をもたらし、多くの場合、大規模で計算集中的なシミュレーション、および重要なドメインの専門知識を必要とします。
これらの制限は、ハイスループット研究および自律実験に不可欠な高速で堅牢なXAS分析パイプラインの開発を妨げます。
これらの課題は、XAS予測のための一連の転送学習アプローチを含むフレームワークであり、それぞれが8つの3D遷移金属(TI-CU)をカバーするK-Edgeスペクトルデータベースで実証されているように、精度と効率の向上に貢献しています。
Omnixasフレームワークは、3つの異なる戦略の上に構築されています。
まず、M3GNETを使用して、吸収部位のローカル化学環境の潜在的な表現をXAS予測の入力として導き出し、従来の機能化技術よりも秩序の改善を達成します。
第二に、要素固有の予測のために微調整する前に、階層転送学習戦略を採用し、要素全体で普遍的なマルチタスクモデルをトレーニングします。
要素ごとの微調整後のこのカスケードアプローチに基づくモデルは、要素固有のモデルを最大69%上回ります。
第三に、忠実な転送学習を実装し、異なる忠実度のシミュレーションによって生成されたスペクトルを予測するためにユニバーサルモデルを適応させ、計算コストが高くなります。
このアプローチは、ターゲットの忠実度だけでトレーニングされたモデルよりも最大11%の予測精度を改善します。
私たちのアプローチは、XASモデリングのスループットを桁違いと第一原理シミュレーションと比較して拡張し、より広範な要素のXAS予測に拡張可能です。
この転送学習フレームワークは、材料研究の他の特性を対象とする深い学習モデルを強化するために一般化できます。

要約(オリジナル)

X-ray absorption spectroscopy (XAS) is a powerful characterization technique for probing the local chemical environment of absorbing atoms. However, analyzing XAS data presents significant challenges, often requiring extensive, computationally intensive simulations, as well as significant domain expertise. These limitations hinder the development of fast, robust XAS analysis pipelines that are essential in high-throughput studies and for autonomous experimentation. We address these challenges with OmniXAS, a framework that contains a suite of transfer learning approaches for XAS prediction, each contributing to improved accuracy and efficiency, as demonstrated on K-edge spectra database covering eight 3d transition metals (Ti-Cu). The OmniXAS framework is built upon three distinct strategies. First, we use M3GNet to derive latent representations of the local chemical environment of absorption sites as input for XAS prediction, achieving up to order-of-magnitude improvements over conventional featurization techniques. Second, we employ a hierarchical transfer learning strategy, training a universal multi-task model across elements before fine-tuning for element-specific predictions. Models based on this cascaded approach after element-wise fine-tuning outperform element-specific models by up to 69%. Third, we implement cross-fidelity transfer learning, adapting a universal model to predict spectra generated by simulation of a different fidelity with a higher computational cost. This approach improves prediction accuracy by up to 11% over models trained on the target fidelity alone. Our approach boosts the throughput of XAS modeling by orders of magnitude versus first-principles simulations and is extendable to XAS prediction for a broader range of elements. This transfer learning framework is generalizable to enhance deep-learning models that target other properties in materials research.

arxiv情報

著者 Shubha R. Kharel,Fanchen Meng,Xiaohui Qu,Matthew R. Carbone,Deyu Lu
発行日 2025-04-15 17:22:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI, cs.LG | OmniXAS: A Universal Deep-Learning Framework for Materials X-ray Absorption Spectra はコメントを受け付けていません

Measures of Variability for Risk-averse Policy Gradient

要約

リスク回避補強学習(RARL)は、不確実性の下での意思決定に不可欠です。これは、ハイステークアプリケーションで特に価値があります。
ただし、ほとんどの既存の作業は、リスク測定、たとえば条件付きバリューアットリスク(CVAR)に焦点を当てていますが、変動の測定値は未定です。
この論文では、変動性の9つの一般的な測定、すなわち、分散、ジニ偏差、平均偏差、平均メディアン偏差、標準偏差、測量間範囲、CVAR偏差、Semi_variance、およびsemi_standard偏差を包括的に研究します。
その中で、4つのメトリックがRARLで以前に研究されていません。
これらの非実施されていないメトリックのポリシー勾配式を導き出し、ジニ偏差の勾配推定を改善し、勾配特性を分析し、補強とPPOフレームワークに組み込み、リターンの分散を罰します。
私たちの経験的研究は、分散ベースのメトリックが不安定なポリシーの更新につながることを明らかにしています。
対照的に、CVAR偏差とジニ偏差は、異なるランダム性と評価ドメインで一貫したパフォーマンスを示し、リスクを回避するポリシーを効果的に学習しながら高いリターンを達成します。
平均偏差とセミスタンダード偏差も、さまざまなシナリオで競争力があります。
この作業は、RARLの変動測定の包括的な概要を提供し、リスクを認識した意思決定のための実用的な洞察を提供し、リスクメトリックとRARLアルゴリズムに関する将来の研究を導きます。

要約(オリジナル)

Risk-averse reinforcement learning (RARL) is critical for decision-making under uncertainty, which is especially valuable in high-stake applications. However, most existing works focus on risk measures, e.g., conditional value-at-risk (CVaR), while measures of variability remain underexplored. In this paper, we comprehensively study nine common measures of variability, namely Variance, Gini Deviation, Mean Deviation, Mean-Median Deviation, Standard Deviation, Inter-Quantile Range, CVaR Deviation, Semi_Variance, and Semi_Standard Deviation. Among them, four metrics have not been previously studied in RARL. We derive policy gradient formulas for these unstudied metrics, improve gradient estimation for Gini Deviation, analyze their gradient properties, and incorporate them with the REINFORCE and PPO frameworks to penalize the dispersion of returns. Our empirical study reveals that variance-based metrics lead to unstable policy updates. In contrast, CVaR Deviation and Gini Deviation show consistent performance across different randomness and evaluation domains, achieving high returns while effectively learning risk-averse policies. Mean Deviation and Semi_Standard Deviation are also competitive across different scenarios. This work provides a comprehensive overview of variability measures in RARL, offering practical insights for risk-aware decision-making and guiding future research on risk metrics and RARL algorithms.

arxiv情報

著者 Yudong Luo,Yangchen Pan,Jiaqi Tan,Pascal Poupart
発行日 2025-04-15 17:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Measures of Variability for Risk-averse Policy Gradient はコメントを受け付けていません