要約
大規模言語モデル (LLM) は、幅広いタスクにわたって優れた機能を実証してきました。
ただし、LLaMA ファミリ モデルなどの最も先進的なオープンソース LLM であっても、複雑な複数ステップの数学的問題を正確に解決することに関しては依然として課題に直面しています。
この論文では、\textbf{Math-Shepherd} と呼ばれる革新的なプロセス指向の数学検証ツールを紹介します。これは、数学問題に関する LLM の出力の各ステップに報酬スコアを割り当てます。
Math-Shepherd のトレーニングは、自動的に構築されたプロセスごとの監視データを使用して実現され、既存の作業における手動アノテーションへの依存度のボトルネックを打破します。
Math-Shepherd の指導により、一連のオープンソース LLM は優れたパフォーマンスを発揮します。
その中でも、DeepSeek 67B \citep{DeepSeek-llm} は、ツールの使用などの外部機能強化を行わずに、GSM8K データセットで 93.3\%、MATH データセットで 48.1\% の精度率を達成することで際立っています。
私たちの Math-Shepherd は、自己無撞着法や他の既存の検証モデルよりも優れたパフォーマンスを発揮します。
私たちは、自動プロセス監視には LLM の将来の進化にとって大きな可能性があると信じています。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks. However, even the most advanced open-source LLMs, such as the LLaMA family models, still face challenges when it comes to accurately solving complex multi-step mathematical problems. In this paper, we present an innovative process-oriented math verifier called \textbf{Math-Shepherd}, which assigns a reward score to each step of the LLM’s outputs on math problems. The training of Math-Shepherd is achieved using automatically constructed process-wise supervision data, breaking the bottleneck of heavy reliance on manual annotation in existing work. With the guidance of Math-Shepherd, a series of open-source LLMs demonstrate exceptional performance. Among them, DeepSeek 67B \citep{DeepSeek-llm} stands out by achieving accuracy rates of 93.3\% on the GSM8K dataset and 48.1\% on the MATH dataset, without external enhancement such as tool usage. Our Math-Shepherd also outperforms the self-consistency method and other existing verification models. We believe that automatic process supervision holds significant potential for the future evolution of LLMs.
arxiv情報
著者 | Peiyi Wang,Lei Li,Zhihong Shao,R. X. Xu,Damai Dai,Yifei Li,Deli Chen,Y. Wu,Zhifang Sui |
発行日 | 2023-12-14 13:41:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google