Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning

要約

大規模な言語モデル(LLM)は、さまざまな言語タスクにわたって顕著な能力を実証していますが、複雑な推論の問題を解決することは依然として重要な課題です。
チェーンオブテアの(COT)や思考のツリー(TOT)などの既存の方法は、問題の分解またはプロンプトの構造化により推論を強化しますが、通常、推論の単一のパスを実行し、欠陥のあるパスを再訪して妥協することができない場合があります。
正確さ。
この制限に対処するために、私たちは、複雑な論理的問題を解決するために集団的意思決定を活用するために複数の推論ツリーを統合する、考え方(FOT)と呼ばれる新しい推論フレームワークを提案します。
FOTは、まばらなアクティベーション戦略を採用して、最も関連性の高い推論パスを選択し、効率と精度の両方を改善します。
さらに、リアルタイムのエラー修正を可能にする動的な自己修正戦略と、正確性と計算リソースの両方を最適化するコンセンサスガイド付きの意思決定戦略を導入します。
実験結果は、FOTフレームワークとこれらの戦略と組み合わせて、LLMSの推論能力を大幅に向上させ、より正確で効率的に複雑なタスクを解決できることを示しています。
考え方。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable abilities across various language tasks, but solving complex reasoning problems remains a significant challenge. While existing methods, such as Chain-of-Thought (CoT) and Tree-of-Thought (ToT), enhance reasoning by decomposing problems or structuring prompts, they typically perform a single pass of reasoning and may fail to revisit flawed paths, compromising accuracy. To address this limitation, we propose a novel reasoning framework called Forest-of-Thought (FoT), which integrates multiple reasoning trees to leverage collective decision-making for solving complex logical problems. FoT employs sparse activation strategies to select the most relevant reasoning paths, improving both efficiency and accuracy. Additionally, we introduce a dynamic self-correction strategy that enables real-time error correction, along with consensus-guided decision-making strategies to optimize both correctness and computational resources. Experimental results demonstrate that the FoT framework, combined with these strategies, significantly enhances the reasoning capabilities of LLMs, enabling them to solve complex tasks with greater precision and efficiency.Code will be available at https://github.com/iamhankai/Forest-of-Thought.

arxiv情報

著者 Zhenni Bi,Kai Han,Chuanjian Liu,Yehui Tang,Yunhe Wang
発行日 2025-02-14 13:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning はコメントを受け付けていません

Technical Risks of (Lethal) Autonomous Weapons Systems

要約

(致命的な)自律兵器システムの自律性と適応性、(L)AWSが要するに、前例のない運用能力を約束しますが、国際安全保障における制御、説明責任、安定性の原則に挑戦する深いリスクも導入します。
このレポートは、(L)AWSの展開に関連する重要な技術的リスクの概要を示しており、予測不可能性、透明性の欠如、および運用上の信頼性の欠如を強調し、それが深刻な意図しない結果につながる可能性があります。
重要なテイクアウト:1。(L)AWSの提案された利点は、客観化と分類によってのみ達成できますが、系統的リスクの範囲は、アルゴリズムの分類の信頼性と予測可能性を制限します。
2。これらの体系的なリスクには、AIの意思決定のブラックボックスの性質、ハッキングに報いる可能性のある感受性、目標の誤ったジェネレーション、および人間のコントロールを逃れる緊急行動の可能性が含まれます。
3。
4.厳密にテストされたシステムでさえ、実際の条件では予測不可能かつ有害に振る舞う可能性があり、戦略的安定性と人道的原則の両方を危険にさらします。

要約(オリジナル)

The autonomy and adaptability of (Lethal) Autonomous Weapons Systems, (L)AWS in short, promise unprecedented operational capabilities, but they also introduce profound risks that challenge the principles of control, accountability, and stability in international security. This report outlines the key technological risks associated with (L)AWS deployment, emphasizing their unpredictability, lack of transparency, and operational unreliability, which can lead to severe unintended consequences. Key Takeaways: 1. Proposed advantages of (L)AWS can only be achieved through objectification and classification, but a range of systematic risks limit the reliability and predictability of classifying algorithms. 2. These systematic risks include the black-box nature of AI decision-making, susceptibility to reward hacking, goal misgeneralization and potential for emergent behaviors that escape human control. 3. (L)AWS could act in ways that are not just unexpected but also uncontrollable, undermining mission objectives and potentially escalating conflicts. 4. Even rigorously tested systems may behave unpredictably and harmfully in real-world conditions, jeopardizing both strategic stability and humanitarian principles.

arxiv情報

著者 Heramb Podar,Alycia Colijn
発行日 2025-02-14 14:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.SY, eess.SY | Technical Risks of (Lethal) Autonomous Weapons Systems はコメントを受け付けていません

STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning

要約

具体化されたインテリジェンスの重要な目的は、エージェントが堅牢な意思決定と適応性を維持しながら、動的環境で長老のタスクを実行できるようにすることです。
この目標を達成するために、時空間メモリを統合することによりタスクの計画と実行を強化するために設計された新しいフレームワークであるSpatio-temporal Memory Agent(STMA)を提案します。
STMAは、3つの重要なコンポーネントに基づいて構築されています。(1)リアルタイムで歴史的および環境的変化をキャプチャする時空間的メモリモジュール、(2)適応的な空間的推論を促進する動的な知識グラフ、および(3)
タスク戦略を繰り返し洗練します。
さまざまなレベルの複雑さの下でのマルチステップ計画と探索を含む、32のタスクでTextWorld環境のSTMAを評価します。
実験結果は、STMAが成功率を31.25%改善し、最先端のモデルと比較して平均スコアが24.7%増加することを示しています。
結果は、具体化されたエージェントのメモリ能力を進める際の時空間記憶の有効性を強調しています。

要約(オリジナル)

A key objective of embodied intelligence is enabling agents to perform long-horizon tasks in dynamic environments while maintaining robust decision-making and adaptability. To achieve this goal, we propose the Spatio-Temporal Memory Agent (STMA), a novel framework designed to enhance task planning and execution by integrating spatio-temporal memory. STMA is built upon three critical components: (1) a spatio-temporal memory module that captures historical and environmental changes in real time, (2) a dynamic knowledge graph that facilitates adaptive spatial reasoning, and (3) a planner-critic mechanism that iteratively refines task strategies. We evaluate STMA in the TextWorld environment on 32 tasks, involving multi-step planning and exploration under varying levels of complexity. Experimental results demonstrate that STMA achieves a 31.25% improvement in success rate and a 24.7% increase in average score compared to the state-of-the-art model. The results highlight the effectiveness of spatio-temporal memory in advancing the memory capabilities of embodied agents.

arxiv情報

著者 Mingcong Lei,Yiming Zhao,Ge Wang,Zhixin Mai,Shuguang Cui,Yatong Han,Jinke Ren
発行日 2025-02-14 14:12:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning はコメントを受け付けていません

From Markov to Laplace: How Mamba In-Context Learns Markov Chains

要約

トランスベースの言語モデルはこれまでAI革命を推進してきましたが、その計算の複雑さは、構造化された状態空間シーケンスモデル(SSM)や選択的SSMなどの実行可能な代替案への関心の高まりを促進しました。
これらの中で、Mamba(S6)とそのバリアントMamba-2は、複雑な言語モデリングタスクで同等または優れた性能を達成しながら、変圧器よりも顕著な推論速度を示しています。
しかし、これらの建築革新と経験的成功にもかかわらず、Mambaの基本的な学習能力は依然としてよく理解されていません。
この論文では、マルコフチェーンでコンテキスト内学習(ICL)を研究し、驚くべき現象を明らかにすることにより、このギャップに対処します。変圧器とは異なり、単一層のマンバでさえ、ベイズと両方のコンテキストラプラシアンスムージング推定器を効率的に学習します。
すべてのマルコフの注文について最適な最適。
これを説明するために、理論的にはマンバの表現能力を特徴付け、最適なラプラシアンの平滑化を表現できるようにする畳み込みの基本的な役割を明らかにします。
これらの理論的洞察は、経験的な結果と強く一致し、私たちの知る限り、MAMBAと最適な統計推定器との最初の正式なつながりを表しています。
最後に、これらの発見に触発された有望な研究の方向性の概要を説明します。

要約(オリジナル)

While transformer-based language models have driven the AI revolution thus far, their computational complexity has spurred growing interest in viable alternatives, such as structured state space sequence models (SSMs) and Selective SSMs. Among these, Mamba (S6) and its variant Mamba-2 have shown remarkable inference speed ups over transformers while achieving comparable or superior performance on complex language modeling tasks. However, despite these architectural innovations and empirical successes, the fundamental learning capabilities of Mamba remain poorly understood. In this paper, we address this gap by studying in-context learning (ICL) on Markov chains and uncovering a surprising phenomenon: unlike transformers, even a single-layer Mamba efficiently learns the in-context Laplacian smoothing estimator, which is both Bayes and minimax optimal, for all Markovian orders. To explain this, we theoretically characterize the representation capacity of Mamba and reveal the fundamental role of convolution in enabling it to represent the optimal Laplacian smoothing. These theoretical insights align strongly with empirical results and, to the best of our knowledge, represent the first formal connection between Mamba and optimal statistical estimators. Finally, we outline promising research directions inspired by these findings.

arxiv情報

著者 Marco Bondaschi,Nived Rajaraman,Xiuying Wei,Kannan Ramchandran,Razvan Pascanu,Caglar Gulcehre,Michael Gastpar,Ashok Vardhan Makkuva
発行日 2025-02-14 14:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT | From Markov to Laplace: How Mamba In-Context Learns Markov Chains はコメントを受け付けていません

OMNI-EPIC: Open-endedness via Models of human Notions of Interestingness with Environments Programmed in Code

要約

オープンエンドおよびAIの生成アルゴリズムは、ますます複雑なタスクを無期限に継続的に生成し、解決することを目的としており、より一般的な知性への有望な道を提供します。
この壮大なビジョンを達成するには、潜在的なタスクの膨大な配列内で学習が行われなければなりません。
環境を自動的に生成するための既存のアプローチは、手動で定義された、しばしば狭い環境の分布内で制約され、学習環境を作成する能力が制限されます。
この制限に対処するために、コード(EPIC)でプログラムされた環境を使用して、人間の興味深い概念(OMNI)のモデルを介して以前の作業をオープンエンドネスで増強する新しいフレームワークであるOmni-Epicを紹介します。
OMNI-EPICは、基礎モデルを活用して、次の学習可能な(つまり、エージェントの現在のスキルセットでは簡単すぎる、または困難ではない)と興味深い(たとえば、価値のある斬新な)タスクを指定するコードを自律的に生成します。
OMNI-EPICは、両方の環境(障害物コースなど)と報酬機能(たとえば、赤いオブジェクトに触れることなく障害物コースを迅速に進行する)を生成し、原則として、シミュレーション可能な学習タスクを作成できるようにします。
Omni-EPICの爆発的な創造性を紹介します。これは、新しい興味深い学習の課題を示唆するために継続的に革新します。
また、OMNI-EPICがどのように強化学習エージェントの学習の進歩に適応し、適切な困難なタスクを生成できるかを強調しています。
全体として、OMNI-EPICは、学習可能で興味深い環境を際限なく作成し、自己改善AIシステムとAI生成アルゴリズムの開発をさらに推進することができます。
ビデオ付きプロジェクトWebサイト:https://dub.sh/omniepic

要約(オリジナル)

Open-ended and AI-generating algorithms aim to continuously generate and solve increasingly complex tasks indefinitely, offering a promising path toward more general intelligence. To accomplish this grand vision, learning must occur within a vast array of potential tasks. Existing approaches to automatically generating environments are constrained within manually predefined, often narrow distributions of environment, limiting their ability to create any learning environment. To address this limitation, we introduce a novel framework, OMNI-EPIC, that augments previous work in Open-endedness via Models of human Notions of Interestingness (OMNI) with Environments Programmed in Code (EPIC). OMNI-EPIC leverages foundation models to autonomously generate code specifying the next learnable (i.e., not too easy or difficult for the agent’s current skill set) and interesting (e.g., worthwhile and novel) tasks. OMNI-EPIC generates both environments (e.g., an obstacle course) and reward functions (e.g., progress through the obstacle course quickly without touching red objects), enabling it, in principle, to create any simulatable learning task. We showcase the explosive creativity of OMNI-EPIC, which continuously innovates to suggest new, interesting learning challenges. We also highlight how OMNI-EPIC can adapt to reinforcement learning agents’ learning progress, generating tasks that are of suitable difficulty. Overall, OMNI-EPIC can endlessly create learnable and interesting environments, further propelling the development of self-improving AI systems and AI-Generating Algorithms. Project website with videos: https://dub.sh/omniepic

arxiv情報

著者 Maxence Faldor,Jenny Zhang,Antoine Cully,Jeff Clune
発行日 2025-02-14 14:24:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | OMNI-EPIC: Open-endedness via Models of human Notions of Interestingness with Environments Programmed in Code はコメントを受け付けていません

RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation

要約

このホワイトペーパーでは、96のオブジェクトクラスを含む479の多様なタスクにわたって107kのデモンストレーション軌跡を含むデータセットであるRobomind(ロボット操作のためのマルチボジメントインテリジェンス規範データ)を紹介します。
Robomindは、人間のテレオ操作を通じて収集され、マルチビューの観察、固有受容ロボット状態情報、言語タスクの説明など、包括的なロボット関連情報を包含します。
模倣学習のデータの一貫性と信頼性を確保するために、Robomindは統一されたデータ収集プラットフォームと標準化されたプロトコルに基づいて構築されており、4つの異なるロボットの実施形態をカバーしています:Franka Emika Panda、UR5E、Agilex Dual-Armロボット、およびヒューマノイドロボットを備えたヒューマノイドロボット
二重の器用な手。
私たちのデータセットには、5Kの実際の障害デモも含まれており、それぞれに詳細な原因が伴い、ポリシー学習中に障害の反射と修正が可能になります。
さらに、Isaac Simシミュレーターにデジタルツイン環境を作成し、実際のタスクと資産を複製し、追加のトレーニングデータの低コストコレクションを容易にし、効率的な評価を可能にします。
データセットの品質と多様性を実証するために、シングルタスク設定のさまざまな模倣学習方法とマルチタスクシナリオ用の最先端のビジョンアクション(VLA)モデルを使用して、広範な実験を実施しました。
Robomindを活用することにより、VLAモデルは高い操作成功率を達成し、強力な一般化能力を実証しました。
私たちの知る限り、Robomindは統一されたプラットフォームで収集された最大の多体積視運動データセットであり、大規模で高品質のロボットトレーニングデータを提供します。
私たちのプロジェクトはhttps://x-humanoid-robomind.github.io/にあります。

要約(オリジナル)

In this paper, we introduce RoboMIND (Multi-embodiment Intelligence Normative Data for Robot Manipulation), a dataset containing 107k demonstration trajectories across 479 diverse tasks involving 96 object classes. RoboMIND is collected through human teleoperation and encompasses comprehensive robotic-related information, including multi-view observations, proprioceptive robot state information, and linguistic task descriptions. To ensure data consistency and reliability for imitation learning, RoboMIND is built on a unified data collection platform and a standardized protocol, covering four distinct robotic embodiments: the Franka Emika Panda, the UR5e, the AgileX dual-arm robot, and a humanoid robot with dual dexterous hands. Our dataset also includes 5k real-world failure demonstrations, each accompanied by detailed causes, enabling failure reflection and correction during policy learning. Additionally, we created a digital twin environment in the Isaac Sim simulator, replicating the real-world tasks and assets, which facilitates the low-cost collection of additional training data and enables efficient evaluation. To demonstrate the quality and diversity of our dataset, we conducted extensive experiments using various imitation learning methods for single-task settings and state-of-the-art Vision-Language-Action (VLA) models for multi-task scenarios. By leveraging RoboMIND, the VLA models achieved high manipulation success rates and demonstrated strong generalization capabilities. To the best of our knowledge, RoboMIND is the largest multi-embodiment teleoperation dataset collected on a unified platform, providing large-scale and high-quality robotic training data. Our project is at https://x-humanoid-robomind.github.io/.

arxiv情報

著者 Kun Wu,Chengkai Hou,Jiaming Liu,Zhengping Che,Xiaozhu Ju,Zhuqin Yang,Meng Li,Yinuo Zhao,Zhiyuan Xu,Guang Yang,Shichao Fan,Xinhua Wang,Fei Liao,Zhen Zhao,Guangyu Li,Zhao Jin,Lecheng Wang,Jilei Mao,Ning Liu,Pei Ren,Qiang Zhang,Yaoxu Lyu,Mengzhen Liu,Jingyang He,Yulin Luo,Zeyu Gao,Chenxuan Li,Chenyang Gu,Yankai Fu,Di Wu,Xingyu Wang,Sixiang Chen,Zhenyu Wang,Pengju An,Siyuan Qian,Shanghang Zhang,Jian Tang
発行日 2025-02-14 14:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation はコメントを受け付けていません

Merging public elementary schools to reduce racial/ethnic segregation

要約

多様な学校は、さまざまな人種/民族、社会経済、およびその他の背景の生徒間のつながりを促進することにより、暗黙のバイアスに対処し、共感、相互尊重、反省的思考を高めるのに役立ちます。
残念ながら、人種による隔離を正式に非合法化してから70年以上経っても、人口統計学的分離は米国の公立学校でramp延しています。
ただし、生徒が学校に割り当てられる方法を変更すると、より統合された学習環境を促進することができます。
このホワイトペーパーでは、「学校の合併」を、そのような未調査でありながら有望な学生の割り当てポリシーの変更として探索します。
学校の合併には、学校の出席境界または集水域を統合し、その後、各学校が提供する成績を変更することが含まれます。
450万人の小学生にサービスを提供している200の大規模な学区の小学校合併をシミュレートするアルゴリズムを開発し、このようにしてペアリングまたはトリプリングスクールが人種/民族の分離を中央値の相対的な20%に減らすことができることを発見しました。
一部の地区では、片道平均数分で学校への運転時間を増やしながら。
人種的/民族的に異なる地域の間に多くのインターフェイスがある地区は、合併の主要な候補者である傾向があります。
また、学校の合併の期待される結果を、再区画などの他の典型的な統合ポリシーと比較し、異なるポリシーが多かれ少なかれ異なる場所で多かれ少なかれ適切である可能性があることがわかります。
最後に、政策立案者とコミュニティメンバーがさらに探索するためのパブリックダッシュボードを通じて結果を利用できるようにします(https://mergers.schooldiversity.org)。
一緒に、私たちの調査では、米国の公立学区全体で統合政策立案をサポートするための新しい調査結果とツールを提供しています。

要約(オリジナル)

Diverse schools can help address implicit biases and increase empathy, mutual respect, and reflective thought by fostering connections between students from different racial/ethnic, socioeconomic, and other backgrounds. Unfortunately, demographic segregation remains rampant in US public schools, despite over 70 years since the passing of federal legislation formally outlawing segregation by race. However, changing how students are assigned to schools can help foster more integrated learning environments. In this paper, we explore ‘school mergers’ as one such under-explored, yet promising, student assignment policy change. School mergers involve merging the school attendance boundaries, or catchment areas, of schools and subsequently changing the grades each school offers. We develop an algorithm to simulate elementary school mergers across 200 large school districts serving 4.5 million elementary school students and find that pairing or tripling schools in this way could reduce racial/ethnic segregation by a median relative 20% — and as much as nearly 60% in some districts — while increasing driving times to schools by an average of a few minutes each way. Districts with many interfaces between racially/ethnically-disparate neighborhoods tend to be prime candidates for mergers. We also compare the expected results of school mergers to other typical integration policies, like redistricting, and find that different policies may be more or less suitable in different places. Finally, we make our results available through a public dashboard for policymakers and community members to explore further (https://mergers.schooldiversity.org). Together, our study offers new findings and tools to support integration policy-making across US public school districts.

arxiv情報

著者 Madison Landry,Nabeel Gillani
発行日 2025-02-14 14:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Merging public elementary schools to reduce racial/ethnic segregation はコメントを受け付けていません

Is Deep Learning finally better than Decision Trees on Tabular Data?

要約

表形式データは、多くの実際のアプリケーションでの汎用性と使いやすさのために、遍在するデータモダリティです。
表形式データの分類タスクを処理するための主なヒューリスティックは、深い学習モデルの優位性がまだ実証されていないため、古典的な機械学習技術に依存しています。
これは、新しい深い学習パラダイムが古典的なアプローチを上回ることができるかどうかという問題を提起します。
表形式データに関する最近の研究は、このドメインのニューラルネットワークの限界に関するユニークな視点を提供し、さまざまなデータセットにわたるスケーラビリティと堅牢性の観点から、勾配ブースト決定ツリー(GBDT)の優位性を強調しています。
ただし、新しい基礎モデルは、品質に関して徹底的に評価されていないか、表形式分類のための既存の方法と比較してかなり評価されていません。
私たちの研究では、基礎となる学習パラダイムに基づいて、最先端の10のニューラルモデルを分類し、特にメタ学習された基礎モデルが小さなデータレジームでGBDTを上回ることを示しています。
データセット固有のニューラルネットワークは一般にLLMベースの表形式分類器よりも優れていますが、それらは、より高い計算需要を犠牲にして、最高のパフォーマンスを示すAutomlライブラリによって超えられています。

要約(オリジナル)

Tabular data is a ubiquitous data modality due to its versatility and ease of use in many real-world applications. The predominant heuristics for handling classification tasks on tabular data rely on classical machine learning techniques, as the superiority of deep learning models has not yet been demonstrated. This raises the question of whether new deep learning paradigms can surpass classical approaches. Recent studies on tabular data offer a unique perspective on the limitations of neural networks in this domain and highlight the superiority of gradient boosted decision trees (GBDTs) in terms of scalability and robustness across various datasets. However, novel foundation models have not been thoroughly assessed regarding quality or fairly compared to existing methods for tabular classification. Our study categorizes ten state-of-the-art neural models based on their underlying learning paradigm, demonstrating specifically that meta-learned foundation models outperform GBDTs in small data regimes. Although dataset-specific neural networks generally outperform LLM-based tabular classifiers, they are surpassed by an AutoML library which exhibits the best performance but at the cost of higher computational demands.

arxiv情報

著者 Guri Zabërgja,Arlind Kadra,Christian M. M. Frey,Josif Grabocka
発行日 2025-02-14 14:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Is Deep Learning finally better than Decision Trees on Tabular Data? はコメントを受け付けていません

Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

要約

数学的問題のための自動化された正式な証明生成で最先端の(SOTA)パフォーマンスを達成するオープンソースの大手言語モデル(LLM)であるGoedel-Proverを紹介します。
この分野の重要な課題は、正式な数学の声明と証明の希少性であり、次の方法で取り組んでいます。
Numinaの自然言語の数学の問題を正式な言語(Lean 4)に翻訳するために、声明のフォーマライザーを訓練し、164万人の正式な声明のデータセットを作成します。
LLMは、正式な声明が元の自然言語の問題の内容を正確に保持することを確認するために使用されます。
次に、一連のプロバーをトレーニングすることにより、正式な証明の大きなデータセットを繰り返し作成します。
各プロバーは、以前のものができないことができない多くの声明を証明することに成功し、これらの新しい証明は次のプロバーのトレーニングセットに追加されます。
監視された微調整のみを使用しているにもかかわらず、私たちの最終的な得点者は、強化学習を採用する以前のベストオープンソースモデルであるDeepSeek-Prover-V1.5を大幅に上回ります。
MINIF2Fベンチマークでは、モデルの成功率は57.6%(@32に合格)を達成し、DeepSeek-Prover-V1.5を7.6%上回ります。
Putnambenchでは、Goedel-Proverは7つの問題(@512を渡す)を正常に解決し、リーダーボードで最初にランキングします。
さらに、リーンワークブックの問題について29.7kの正式な証明を生成し、以前の作品によって生成された15.7kをほぼ2倍にします。

要約(オリジナル)

We introduce Goedel-Prover, an open-source large language model (LLM) that achieves the state-of-the-art (SOTA) performance in automated formal proof generation for mathematical problems. The key challenge in this field is the scarcity of formalized math statements and proofs, which we tackle in the following ways. We train statement formalizers to translate the natural language math problems from Numina into formal language (Lean 4), creating a dataset of 1.64 million formal statements. LLMs are used to check that the formal statements accurately preserve the content of the original natural language problems. We then iteratively build a large dataset of formal proofs by training a series of provers. Each prover succeeds in proving many statements that the previous ones could not, and these new proofs are added to the training set for the next prover. Despite using only supervised fine-tuning, our final prover significantly outperforms the previous best open-source model, DeepSeek-Prover-V1.5, which employs reinforcement learning. On the miniF2F benchmark, our model achieves a success rate of 57.6% (Pass@32), surpassing DeepSeek-Prover-V1.5 by 7.6%. On PutnamBench, Goedel-Prover successfully solves 7 problems (Pass@512), ranking first on the leaderboard. Furthermore, it generates 29.7K formal proofs for Lean Workbook problems, nearly doubling the 15.7K produced by earlier works.

arxiv情報

著者 Yong Lin,Shange Tang,Bohan Lyu,Jiayun Wu,Hongzhou Lin,Kaiyu Yang,Jia Li,Mengzhou Xia,Danqi Chen,Sanjeev Arora,Chi Jin
発行日 2025-02-14 14:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving はコメントを受け付けていません

MathConstruct: Challenging LLM Reasoning with Constructive Proofs

要約

大規模な言語モデル(LLMS)は数学の印象的なパフォーマンスを示していますが、既存の数学ベンチマークには大きな制限があります。
多くの人が固定された地下真実の回答の問題に焦点を当てており、問題の単純さや推測や暗記の実行可能性のために、しばしば飽和します。
重要なことに、それらは関連する数学の問題の狭いサブセットのみをキャプチャします。
この研究のギャップに対処するために、さまざまな数学競争から供給された126の挑戦的な問題の新しいベンチマークである\ MCを紹介します。これは、特定の特性を持つ数学的オブジェクトの構築を必要とする広く遭遇する問題タイプです。
これらの証明は、ソリューションの正確性を簡単に検証できるため、LLM評価に特に適しています。
また、自動化された検証剤により、MathConstructは堅牢性を評価するために使用される問題のバリエーションを生成できます。
最先端のLLMは、MathConstructの問題の54%のみを解決し、LLM評価の複雑さと重要性を強調しています。

要約(オリジナル)

While Large Language Models (LLMs) demonstrate impressive performance in mathematics, existing math benchmarks come with significant limitations. Many focus on problems with fixed ground-truth answers, and are often saturated due to problem simplicity or the viability of guessing or memorization. Crucially, they capture only a narrow subset of relevant math problems. To address this research gap, we introduce \mc, a new benchmark of 126 challenging problems sourced from various math competitions, which targets constructive proofs, a widely encountered problem type requiring the construction of mathematical objects with specific properties. These proofs are particularly suitable for LLM evaluation, as solution correctness can be easily verified. Our automated verifiers also enable MathConstruct to generate problem variations, used to evaluate robustness. State-of-the-art LLMs solve only 54% of MathConstruct problems, highlighting its complexity and importance for LLM evaluation.

arxiv情報

著者 Mislav Balunović,Jasper Dekoninck,Nikola Jovanović,Ivo Petrov,Martin Vechev
発行日 2025-02-14 14:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MathConstruct: Challenging LLM Reasoning with Constructive Proofs はコメントを受け付けていません