要約
大規模言語モデル (LLM) の進歩により、オリンピックレベルの数学問題を解く能力に対する関心が高まっています。
ただし、このような高度な問題に対する大規模なデータの作成には人間の専門家による多大な労力が必要となるため、これらのモデルのトレーニングと評価は、利用可能なデータセットのサイズと品質が限られているため制約を受けます。
さらに、現在のベンチマークは汚染されやすく、信頼性の低い評価につながります。
このペーパーでは、主にオリンピック レベルの問題とコミュニティ主導の解決策を特集する Art of 問題解決 (AoPS) フォーラムの豊富なリソースを活用する自動化されたパイプラインを紹介します。
オープンソース LLM を使用して、フォーラムから質問と回答のペアを抽出する方法を開発し、その結果、600,000 を超える高品質の QA ペアのデータセットである AoPS-Instruct が完成しました。
私たちの実験では、AoPS-Instruct で LLM を微調整すると、さまざまなベンチマークにわたって推論能力が向上することが実証されました。
さらに、最新のフォーラム データから派生した、タイムスタンプを備えた進化する評価セットである LiveAoPSBench を導入する自動パイプラインを構築し、LLM パフォーマンスを評価するための耐汚染性ベンチマークを提供します。
特に、時間の経過とともに LLM のパフォーマンスが大幅に低下していることが観察されており、古い例での LLM の成功は、真の推論能力ではなく、トレーニング前の露出に起因している可能性があることが示唆されています。
私たちの研究は、高度な数学的推論のための大規模で高品質なデータセットを作成および維持するためのスケーラブルなアプローチを提示し、この分野における LLM の機能と制限についての貴重な洞察を提供します。
私たちのベンチマークとコードは https://github.com/DSL-Lab/aops から入手できます。
要約(オリジナル)
Advances in Large Language Models (LLMs) have sparked interest in their ability to solve Olympiad-level math problems. However, the training and evaluation of these models are constrained by the limited size and quality of available datasets, as creating large-scale data for such advanced problems requires extensive effort from human experts. In addition, current benchmarks are prone to contamination, leading to unreliable evaluations. In this paper, we present an automated pipeline that leverages the rich resources of the Art of Problem Solving (AoPS) forum, which predominantly features Olympiad-level problems and community-driven solutions. Using open-source LLMs, we develop a method to extract question-answer pairs from the forum, resulting in AoPS-Instruct, a dataset of more than 600,000 high-quality QA pairs. Our experiments demonstrate that fine-tuning LLMs on AoPS-Instruct improves their reasoning abilities across various benchmarks. Moreover, we build an automatic pipeline that introduces LiveAoPSBench, an evolving evaluation set with timestamps, derived from the latest forum data, providing a contamination-resistant benchmark for assessing LLM performance. Notably, we observe a significant decline in LLM performance over time, suggesting their success on older examples may stem from pre-training exposure rather than true reasoning ability. Our work presents a scalable approach to creating and maintaining large-scale, high-quality datasets for advanced math reasoning, offering valuable insights into the capabilities and limitations of LLMs in this domain. Our benchmark and code is available at https://github.com/DSL-Lab/aops
arxiv情報
著者 | Sadegh Mahdavi,Muchen Li,Kaiwen Liu,Christos Thrampoulidis,Leonid Sigal,Renjie Liao |
発行日 | 2025-01-24 06:39:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google