Confidence Regularized Masked Language Modeling using Text Length

要約

入力テキストでランダムにマスクされた単語を予測するタスクであるマスクされた言語モデリングは、効率的な言語表現学習方法です。
マスクされた言語モデリングは、マスクされた位置を埋めるために人々が考えることができるさまざまな単語を無視し、1つの単語で損失を計算します。
特に、入力テキストが短い場合、マスクされた位置を埋めることができる単語分布のエントロピーが高くなる可能性があります。
これにより、モデルは単一の回答で自信過剰になる可能性があります。
この問題に対処するために、入力テキストの長さで動的に強度を動的に制御する新しい自信の正規容器を提案します。
接着剤と分隊のデータセットを使用した実験により、この方法は精度が向上し、予想されるキャリブレーションエラーが低下することが示されました。

要約(オリジナル)

Masked language modeling, which is a task to predict a randomly masked word in the input text, is an efficient language representation learning method. Masked language modeling ignores various words which people can think of for filling in the masked position and calculates the loss with a single word. Especially when the input text is short, the entropy of the word distribution that can fill in the masked position can be high. This may cause the model to be overconfident in the single answer. To address this issue, we propose a novel confidence regularizer that controls regularizing strength dynamically by the input text length. Experiments with GLUE and SQuAD datasets showed that our method achieves better accuracy and lower expected calibration error.

arxiv情報

著者 Seunghyun Ji,Soowon Lee
発行日 2025-04-08 13:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Confidence Regularized Masked Language Modeling using Text Length はコメントを受け付けていません

Ising on the Graph: Task-specific Graph Subsampling via the Ising Model

要約

全体的なプロパティを保存しながらグラフを削減することは、多くのアプリケーションで重要な問題です。
通常、削減は、特定のダウンストリームタスクを念頭に置いて、監視されていない方法でエッジを削除する(スパース化)またはマージノード(粗大化)のいずれかをアプローチします。
このホワイトペーパーでは、ノードまたはエッジで定義されたISINGモデルを使用してグラフ構造をサブサンプリングし、グラフニューラルネットワークを使用してISINGモデルの外部磁場を学習するためのアプローチを提示します。
私たちのアプローチは、タスクに微分可能な損失関数を必要とせずに、特定のダウンストリームタスクのグラフをエンドツーエンドの方法で削減する方法を学ぶことができるため、タスク固有です。
画像セグメンテーション、グラフ分類の説明可能性、3D形状のスパース化、およびスパースの近似マトリックス逆決定の4つの異なるアプリケーションでのアプローチの汎用性を紹介します。

要約(オリジナル)

Reducing a graph while preserving its overall properties is an important problem with many applications. Typically, reduction approaches either remove edges (sparsification) or merge nodes (coarsening) in an unsupervised way with no specific downstream task in mind. In this paper, we present an approach for subsampling graph structures using an Ising model defined on either the nodes or edges and learning the external magnetic field of the Ising model using a graph neural network. Our approach is task-specific as it can learn how to reduce a graph for a specific downstream task in an end-to-end fashion without requiring a differentiable loss function for the task. We showcase the versatility of our approach on four distinct applications: image segmentation, explainability for graph classification, 3D shape sparsification, and sparse approximate matrix inverse determination.

arxiv情報

著者 Maria Bånkestad,Jennifer R. Andersson,Sebastian Mair,Jens Sjölund
発行日 2025-04-08 13:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Ising on the Graph: Task-specific Graph Subsampling via the Ising Model はコメントを受け付けていません

CORTEX-AVD: CORner Case Testing & EXploration for Autonomous Vehicles Development

要約

自律車(AVS)は、人為的エラーを減らすことにより、交通の安全性と効率を改善することを目指しています。
ただし、AVSの信頼性と安全性を確保することは、まれでリスクの高いトラフィックシナリオを考慮した場合に困難な作業です。
予期しない車両の操作や突然の歩行者の交差などのこれらの「コーナーケース」(CC)シナリオは、AVSが運営中に安全かつ信頼できるものにする必要があります。
しかし、それらは効率的に生成されるようになります。
従来のCC世代は、費用がかかり、リスクの高い現実世界のデータ収集、スケーラビリティの制限、および研究開発の進歩の鈍化に依存しています。
シミュレーションベースの手法も課題に直面しています。さまざまなシナリオをモデル化し、可能なすべてのCCをキャプチャすることは複雑で時間がかかるためです。
CC世代のこれらの制限に対処するために、この研究では、CARLAシミュレーターと風光明媚なオープンソースのフレームワークである自動運転車開発の皮質AVD、コーナーケーステストと探査を導入し、テキストの説明からCCを自動的に生成し、シナリオモデリングの多様性と自動化を増やします。
遺伝的アルゴリズム(GA)は、6つのケーススタディシナリオでシナリオパラメーターを最適化するために使用され、リスクの高いイベントの発生を増加させます。
以前の方法とは異なり、Cortex-AVDには、距離、時間、速度、衝突の尤度などの変数を考慮する多要素フィットネス関数が組み込まれています。
さらに、この調査では、GAベースのCC生成方法を比較するためのベンチマークを提供し、合成データ生成とシナリオ評価のより標準化された評価に貢献しています。
実験結果は、皮質-AVDフレームワークが無駄なシミュレーションの割合を減らしながらCCの発生率を大幅に増加させることを示しています。

要約(オリジナル)

Autonomous Vehicles (AVs) aim to improve traffic safety and efficiency by reducing human error. However, ensuring AVs reliability and safety is a challenging task when rare, high-risk traffic scenarios are considered. These ‘Corner Cases’ (CC) scenarios, such as unexpected vehicle maneuvers or sudden pedestrian crossings, must be safely and reliable dealt by AVs during their operations. But they arehard to be efficiently generated. Traditional CC generation relies on costly and risky real-world data acquisition, limiting scalability, and slowing research and development progress. Simulation-based techniques also face challenges, as modeling diverse scenarios and capturing all possible CCs is complex and time-consuming. To address these limitations in CC generation, this research introduces CORTEX-AVD, CORner Case Testing & EXploration for Autonomous Vehicles Development, an open-source framework that integrates the CARLA Simulator and Scenic to automatically generate CC from textual descriptions, increasing the diversity and automation of scenario modeling. Genetic Algorithms (GA) are used to optimize the scenario parameters in six case study scenarios, increasing the occurrence of high-risk events. Unlike previous methods, CORTEX-AVD incorporates a multi-factor fitness function that considers variables such as distance, time, speed, and collision likelihood. Additionally, the study provides a benchmark for comparing GA-based CC generation methods, contributing to a more standardized evaluation of synthetic data generation and scenario assessment. Experimental results demonstrate that the CORTEX-AVD framework significantly increases CC incidence while reducing the proportion of wasted simulations.

arxiv情報

著者 Gabriel Kenji Godoy Shimanuki,Alexandre Moreira Nascimento,Lucio Flavio Vismari,Joao Batista Camargo Junior,Jorge Rady de Almeida Junior,Paulo Sergio Cugnasca
発行日 2025-04-08 13:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | CORTEX-AVD: CORner Case Testing & EXploration for Autonomous Vehicles Development はコメントを受け付けていません

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

要約

大規模な言語モデル(LLM)の効果的な推論とテキスト生成には、外部の知識と最新情報を効率的に取得することが不可欠です。
LLMが検索エンジンと最適に対話する方法に関する機能を完全に持っていない可能性があるため、推論中に検索エンジンを使用する推論機能を備えた高度なLLMSが最適ではないことがよくあります。
このペーパーでは、LLMがリアルタイム検索でステップバイステップの推論中に(複数の)検索クエリを自律的に生成することを学習する推論フレームワークのための強化学習(RL)の拡張であるSearch-R1を紹介します。
Search-R1は、マルチターン検索インタラクションを使用してLLM推論の軌跡を最適化し、安定したRLトレーニングのための検索されたトークンマスキングと単純な結果ベースの報酬機能を活用します。
7つの質問回答データセットの実験では、Search-R1が同じ設定でさまざまなRAGベースラインで41%(QWEN2.5-7B)および20%(QWEN2.5-3B)のパフォーマンスを向上させることが示されています。
このペーパーでは、検索された推論におけるRL最適化方法、LLMの選択、および応答長ダイナミクスに関する経験的洞察をさらに提供します。
コードとモデルのチェックポイントは、https://github.com/petergriffinjin/search-r1で入手できます。

要約(オリジナル)

Efficiently acquiring external knowledge and up-to-date information is essential for effective reasoning and text generation in large language models (LLMs). Prompting advanced LLMs with reasoning capabilities to use search engines during inference is often suboptimal, as the LLM might not fully possess the capability on how to interact optimally with the search engine. This paper introduces Search-R1, an extension of reinforcement learning (RL) for reasoning frameworks where the LLM learns to autonomously generate (multiple) search queries during step-by-step reasoning with real-time retrieval. Search-R1 optimizes LLM reasoning trajectories with multi-turn search interactions, leveraging retrieved token masking for stable RL training and a simple outcome-based reward function. Experiments on seven question-answering datasets show that Search-R1 improves performance by 41% (Qwen2.5-7B) and 20% (Qwen2.5-3B) over various RAG baselines under the same setting. This paper further provides empirical insights into RL optimization methods, LLM choices, and response length dynamics in retrieval-augmented reasoning. The code and model checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.

arxiv情報

著者 Bowen Jin,Hansi Zeng,Zhenrui Yue,Jinsung Yoon,Sercan Arik,Dong Wang,Hamed Zamani,Jiawei Han
発行日 2025-04-08 14:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning はコメントを受け付けていません

Frequency maps reveal the correlation between Adversarial Attacks and Implicit Bias

要約

分類タスクでの印象的なパフォーマンスにもかかわらず、ニューラルネットワークは敵対的な攻撃、モデルを欺くために設計された入力データの微妙な摂動に対して脆弱であることが知られています。
この作業では、これらの摂動と勾配ベースのアルゴリズムで訓練されたニューラルネットワークの暗黙的なバイアスとの相関関係を調査します。
この目的のために、フーリエ変換のレンズを介したネットワークの暗黙的なバイアスの表現を分析します。
具体的には、各画像の正確な分類に必要な最小限の必須周波数と、敵対的に摂動したカウンターパートの誤分類を促進する周波数を計算することにより、暗黙のバイアスと敵対的攻撃のユニークな指紋を特定します。
このアプローチにより、これらの必須周波数間の相関を明らかにして分析し、ネットワークのバイアスが敵対的攻撃によって活用される周波数コンポーネントとどのように整合または対照されるかを正確にマップすることができます。
この目的のために、他の方法の中でも、高次元データセット間の非線形相関を検出できる新しく導入された手法を使用します。
我々の結果は、フーリエ空間と敵対的攻撃のターゲット周波数におけるネットワークバイアスが高度に相関しており、敵対的防御のための新しい潜在的な戦略を示唆しているという経験的証拠を提供します。

要約(オリジナル)

Despite their impressive performance in classification tasks, neural networks are known to be vulnerable to adversarial attacks, subtle perturbations of the input data designed to deceive the model. In this work, we investigate the correlation between these perturbations and the implicit bias of neural networks trained with gradient-based algorithms. To this end, we analyse a representation of the network’s implicit bias through the lens of the Fourier transform. Specifically, we identify unique fingerprints of implicit bias and adversarial attacks by calculating the minimal, essential frequencies needed for accurate classification of each image, as well as the frequencies that drive misclassification in its adversarially perturbed counterpart. This approach enables us to uncover and analyse the correlation between these essential frequencies, providing a precise map of how the network’s biases align or contrast with the frequency components exploited by adversarial attacks. To this end, among other methods, we use a newly introduced technique capable of detecting nonlinear correlations between high-dimensional datasets. Our results provide empirical evidence that the network bias in Fourier space and the target frequencies of adversarial attacks are highly correlated and suggest new potential strategies for adversarial defence.

arxiv情報

著者 Lorenzo Basile,Nikos Karantzas,Alberto d’Onofrio,Luca Manzoni,Luca Bortolussi,Alex Rodriguez,Fabio Anselmi
発行日 2025-04-08 14:29:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, stat.ML | Frequency maps reveal the correlation between Adversarial Attacks and Implicit Bias はコメントを受け付けていません

Real-Time LaCAM

要約

完全性保証を備えたマルチエージェントパス検出(MAPF)メソッドの大部分には、完全な地平線パスを計画する必要があります。
ただし、完全な地平線パスの計画には時間がかかりすぎて、実際のアプリケーションでは実用的ではありません。
代わりに、プランナーが実行して再生する前に有限の時間を確保できるリアルタイムの計画と実行は、現実世界のマルチエージェントシステムでより実用的です。
いくつかの方法は、リアルタイムの計画スキームを利用していますが、リベロックやデッドロックにつながると証明されたものはありません。
私たちの主な貢献は、証明可能な完全性保証を備えた最初のリアルタイムMAPFメソッドを示すことです。
これは、ラカム(オクムラ2023)を漸進的に活用することで行います。
私たちの結果は、完全なHorizo​​n Lacamと同じ成功率を維持しながら、ミリ秒のカットオフ時間で混雑した環境を繰り返し計画できる方法を示しています。
また、単一ステップの学習MAPFポリシーでそれをどのように使用できるかを示します。
提案されたリアルタイムラカムは、将来のリアルタイムMAPFアルゴリズムで完全性のために反復制約を使用するための一般的なメカニズムを提供します。

要約(オリジナル)

The vast majority of Multi-Agent Path Finding (MAPF) methods with completeness guarantees require planning full horizon paths. However, planning full horizon paths can take too long and be impractical in real-world applications. Instead, real-time planning and execution, which only allows the planner a finite amount of time before executing and replanning, is more practical for real world multi-agent systems. Several methods utilize real-time planning schemes but none are provably complete, which leads to livelock or deadlock. Our main contribution is to show the first Real-Time MAPF method with provable completeness guarantees. We do this by leveraging LaCAM (Okumura 2023) in an incremental fashion. Our results show how we can iteratively plan for congested environments with a cutoff time of milliseconds while still maintaining the same success rate as full horizon LaCAM. We also show how it can be used with a single-step learned MAPF policy. The proposed Real-Time LaCAM also provides us with a general mechanism for using iterative constraints for completeness in future real-time MAPF algorithms.

arxiv情報

著者 Runzhe Liang,Rishi Veerapaneni,Daniel Harabor,Jiaoyang Li,Maxim Likhachev
発行日 2025-04-08 14:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Real-Time LaCAM はコメントを受け付けていません

CATBench: A Compiler Autotuning Benchmarking Suite for Black-box Optimization

要約

ベイズの最適化は、コンパイラのチューニングを自動化するための強力な方法です。
オートチューンの複雑な景観は、ブラックボックスオプティマイザーにとってめったに考慮されない無数の構造的課題を提供し、標準化されたベンチマークの欠如により、ドメイン内のベイジアン最適化の研究が制限されています。
これに対処するために、離散、条件付き、および順列パラメーターのタイプから既知の未知のバイナリ制約、および多財務および多目的評価の両方に至るまで、コンパイラオートチューニングの複雑さをキャプチャする包括的なベンチマークスイートであるCatbenchを提示します。
キャットベンチのベンチマークは、テンソル代数から画像処理とクラスタリングまで、さまざまな機械学習指向の計算に及び、TacoやRise/Elevateなどの最先端のコンパイラーを使用します。
Catbenchは、ベイジアン最適化アルゴリズムを評価するための統一されたインターフェイスを提供し、代理と現実世界のコンパイラ最適化タスクの両方の使いやすく完全にコンテナ化されたセットアップを通じて再現性と革新を促進します。
いくつかの最先端のアルゴリズムでキャットベンチを検証し、その長所と短所を明らかにし、ベイジアンの最適化とコンパイラオートチューニング研究の両方を進めるためのスイートの可能性を実証します。

要約(オリジナル)

Bayesian optimization is a powerful method for automating tuning of compilers. The complex landscape of autotuning provides a myriad of rarely considered structural challenges for black-box optimizers, and the lack of standardized benchmarks has limited the study of Bayesian optimization within the domain. To address this, we present CATBench, a comprehensive benchmarking suite that captures the complexities of compiler autotuning, ranging from discrete, conditional, and permutation parameter types to known and unknown binary constraints, as well as both multi-fidelity and multi-objective evaluations. The benchmarks in CATBench span a range of machine learning-oriented computations, from tensor algebra to image processing and clustering, and uses state-of-the-art compilers, such as TACO and RISE/ELEVATE. CATBench offers a unified interface for evaluating Bayesian optimization algorithms, promoting reproducibility and innovation through an easy-to-use, fully containerized setup of both surrogate and real-world compiler optimization tasks. We validate CATBench on several state-of-the-art algorithms, revealing their strengths and weaknesses and demonstrating the suite’s potential for advancing both Bayesian optimization and compiler autotuning research.

arxiv情報

著者 Jacob O. Tørring,Carl Hvarfner,Luigi Nardi,Magnus Själander
発行日 2025-04-08 14:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | CATBench: A Compiler Autotuning Benchmarking Suite for Black-box Optimization はコメントを受け付けていません

Large Language Model Enhanced Knowledge Representation Learning: A Survey

要約

知識表現学習(KRL)は、知識グラフ(KG)から象徴的な知識のアプリケーションを、知識の事実をベクトル空間に投影することにより、ダウンストリームタスクへのアプリケーションを可能にするために重要です。
KG構造情報のモデリングにおける有効性にもかかわらず、KRLメソッドはKGSのまばらさに苦しんでいます。
トランスアーキテクチャに基づいて構築された大規模な言語モデル(LLM)の台頭は、KGSの情報スパース性に対処するためにテキスト情報を組み込むことにより、KRLを強化するための有望な機会を提供します。
3つの重要なアプローチ、詳細なコンテキスト情報を活用するエンコーダーベースのメソッド、包括的なエンコードとデコードのための統合されたSEQ2SEQモデルを利用するエンコーダデコーダーベースのメソッド、および大規模なcorporaからの広範な知識を利用するデコーダーベースのメソッドを含むLLM強化KRLメソッドは、KRLの有効性と一般化を大幅に進めました。
この作業は、これらの進化するドメインの新しい研究方向を同時に識別しながら、下流のタスクの幅広い概要を提供します。

要約(オリジナル)

Knowledge Representation Learning (KRL) is crucial for enabling applications of symbolic knowledge from Knowledge Graphs (KGs) to downstream tasks by projecting knowledge facts into vector spaces. Despite their effectiveness in modeling KG structural information, KRL methods are suffering from the sparseness of KGs. The rise of Large Language Models (LLMs) built on the Transformer architecture presents promising opportunities for enhancing KRL by incorporating textual information to address information sparsity in KGs. LLM-enhanced KRL methods, including three key approaches, encoder-based methods that leverage detailed contextual information, encoder-decoder-based methods that utilize a unified Seq2Seq model for comprehensive encoding and decoding, and decoder-based methods that utilize extensive knowledge from large corpora, have significantly advanced the effectiveness and generalization of KRL in addressing a wide range of downstream tasks. This work provides a broad overview of downstream tasks while simultaneously identifying emerging research directions in these evolving domains.

arxiv情報

著者 Xin Wang,Zirui Chen,Haofen Wang,Leong Hou U,Zhao Li,Wenbin Guo
発行日 2025-04-08 14:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Large Language Model Enhanced Knowledge Representation Learning: A Survey はコメントを受け付けていません

Uncertainty-Aware Hybrid Machine Learning in Virtual Sensors for Vehicle Sideslip Angle Estimation

要約

正確な車両状態の推定は、安全で信頼性の高い自律運転のために重要です。
測定可能な状態の数と、オンボード車両センサーシステムが提供する精度は、多くの場合、コストによって制約されます。
たとえば、車両のサイドスリップ角度(VSA)などの臨界量を測定すると、現在の光学センサーを使用して重要な商業的課題をもたらします。
このペーパーでは、高性能仮想センサーの開発に焦点を当てて、積極的な安全性のための車両状態の推定を強化することにより、これらの制限に対処します。
提案された不確実性認識ハイブリッド学習(UAHL)アーキテクチャは、機械学習モデルを車両モーションモデルと統合して、オンボードセンサーデータからVSAを直接推定します。
UAHLアーキテクチャの重要な側面は、個々のモデル推定値とハイブリッド融合の不確実性の定量化に焦点を当てることです。
これらのメカニズムにより、機械学習および車両モーションモデルからの不確実な予測の動的な重み付けが可能になり、正確で信頼性の高いハイブリッドVSA推定値が生成されます。
この作業では、高度な車両動的センサーからの同期測定を含む、実際の車両状態推定データセット(REV-STED)という名前の新しいデータセットも提示されます。
実験結果は、VSA推定のための提案された方法の優れた性能を示しており、UAHLを仮想センサーを進め、自律車両の積極的な安全性を高めるための有望なアーキテクチャとして強調しています。

要約(オリジナル)

Precise vehicle state estimation is crucial for safe and reliable autonomous driving. The number of measurable states and their precision offered by the onboard vehicle sensor system are often constrained by cost. For instance, measuring critical quantities such as the Vehicle Sideslip Angle (VSA) poses significant commercial challenges using current optical sensors. This paper addresses these limitations by focusing on the development of high-performance virtual sensors to enhance vehicle state estimation for active safety. The proposed Uncertainty-Aware Hybrid Learning (UAHL) architecture integrates a machine learning model with vehicle motion models to estimate VSA directly from onboard sensor data. A key aspect of the UAHL architecture is its focus on uncertainty quantification for individual model estimates and hybrid fusion. These mechanisms enable the dynamic weighting of uncertainty-aware predictions from machine learning and vehicle motion models to produce accurate and reliable hybrid VSA estimates. This work also presents a novel dataset named Real-world Vehicle State Estimation Dataset (ReV-StED), comprising synchronized measurements from advanced vehicle dynamic sensors. The experimental results demonstrate the superior performance of the proposed method for VSA estimation, highlighting UAHL as a promising architecture for advancing virtual sensors and enhancing active safety in autonomous vehicles.

arxiv情報

著者 Abinav Kalyanasundaram,Karthikeyan Chandra Sekaran,Philipp Stauber,Michael Lange,Wolfgang Utschick,Michael Botsch
発行日 2025-04-08 14:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Uncertainty-Aware Hybrid Machine Learning in Virtual Sensors for Vehicle Sideslip Angle Estimation はコメントを受け付けていません

Leanabell-Prover: Posttraining Scaling in Formal Reasoning

要約

LLMSを通じて自動化された定理証明(ATP)の最近の進歩は、LEAN 4コードを使用した正式な推論の可能性を強調しています。
ただし、ATPは、Open AI O1/O3およびDeepSeek R1によって実証されているように、最近のトレーニング後のスケーリングによってまだ革命されていません。
この作業では、ATPのポストトレーニング全体を調査し、自然言語の推論モデルのブレークスルーと整列することを目指しています。開始するには、現在のATPモデルを継続的に訓練します。
次に、Lean 4 Compilerによって返された結果報酬を使用して、補強学習を検討します。
設計された継続的なトレーニングと強化学習プロセスを通じて、DeepSeek-Prover-V1.5とGoedel-Proverの両方を含む既存の正式なプロバーを成功裏に改善し、全装飾の分野で最先端のパフォーマンスを達成しました。
たとえば、MINIF2Fで59.8%の合格率(Pass@32)を達成します。
これは進行中のプロジェクトであり、調査結果を徐々に更新し、データとトレーニングの詳細を公開します。

要約(オリジナル)

Recent advances in automated theorem proving (ATP) through LLMs have highlighted the potential of formal reasoning with Lean 4 codes. However, ATP has not yet be revolutionized by the recent posttraining scaling as demonstrated by Open AI O1/O3 and Deepseek R1. In this work, we investigate the entire posttraining of ATP, aiming to align it with breakthroughs in reasoning models in natural languages.To begin, we continual train current ATP models with a hybrid dataset, which consists of numerous statement-proof pairs, and additional data aimed at incorporating cognitive behaviors that emulate human reasoning and hypothesis refinement. Next, we explore reinforcement learning with the use of outcome reward returned by Lean 4 compiler. Through our designed continual training and reinforcement learning processes, we have successfully improved existing formal provers, including both DeepSeek-Prover-v1.5 and Goedel-Prover, achieving state-of-the-art performance in the field of whole-proof generation. For example, we achieve a 59.8% pass rate (pass@32) on MiniF2F. This is an on-going project and we will progressively update our findings, release our data and training details.

arxiv情報

著者 Jingyuan Zhang,Qi Wang,Xingguang Ji,Yahui Liu,Yang Yue,Fuzheng Zhang,Di Zhang,Guorui Zhou,Kun Gai
発行日 2025-04-08 15:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Leanabell-Prover: Posttraining Scaling in Formal Reasoning はコメントを受け付けていません