AlphaMath Almost Zero: process Supervision without process

要約

近年の大規模言語モデル(LLM)の進歩により、その数学的推論能力は大幅に向上している。しかし、これらのモデルは、複数の推論ステップを必要とする複雑な問題では依然として苦戦を強いられており、論理的または数値的なエラーが頻繁に発生する。数値的なミスはコードインタプリタを統合することでほぼ対処できるが、中間ステップ内の論理的なエラーを特定することはより困難である。さらに、トレーニングのためにこれらのステップに手作業でアノテーションを付けることは、コストがかかるだけでなく、専門的な知識を必要とする。本研究では、モンテカルロ木探索(MCTS)フレームワークを活用し、プロセス監視と評価信号の両方を自動生成することで、手動アノテーションの必要性を排除する革新的なアプローチを紹介する。基本的に、LLMが十分に事前訓練されている場合、解答を必要とせず、数学的質問とその最終解答のみが訓練データを生成するために必要となる。我々は、数学的領域におけるLLMの推論プロセスを改善するために設計されたステップレベル値モデルの学習を進める。我々の実験によれば、MCTSで強化されたLLMが自動的に生成した解答を用いることで、複雑な数学的推論タスクに対応するモデルの習熟度が大幅に向上する。

要約(オリジナル)

Recent advancements in large language models (LLMs) have substantially enhanced their mathematical reasoning abilities. However, these models still struggle with complex problems that require multiple reasoning steps, frequently leading to logical or numerical errors. While numerical mistakes can largely be addressed by integrating a code interpreter, identifying logical errors within intermediate steps is more challenging. Moreover, manually annotating these steps for training is not only expensive but also demands specialized expertise. In this study, we introduce an innovative approach that eliminates the need for manual annotation by leveraging the Monte Carlo Tree Search (MCTS) framework to generate both the process supervision and evaluation signals automatically. Essentially, when a LLM is well pre-trained, only the mathematical questions and their final answers are required to generate our training data, without requiring the solutions. We proceed to train a step-level value model designed to improve the LLM’s inference process in mathematical domains. Our experiments indicate that using automatically generated solutions by LLMs enhanced with MCTS significantly improves the model’s proficiency in dealing with intricate mathematical reasoning tasks.

arxiv情報

著者 Guoxin Chen,Minpeng Liao,Chengxi Li,Kai Fan
発行日 2024-05-06 15:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク