Can A Gamer Train A Mathematical Reasoning Model?

要約

大規模な言語モデル(LLM)は、数学的推論を含むさまざまなタスクで顕著なパフォーマンスを達成していますが、それらの開発は通常、法外な計算リソースを必要とします。
最近の進歩により、トレーニングに能力のあるモデルのコストが削減されましたが、これらのアプローチでさえ、ハイエンドのハードウェアクラスターに依存しています。
この論文では、単一の平均的なゲームGPUが、強化学習とメモリの最適化手法を統合することにより、堅実な数学的推論モデルをトレーニングできることを実証します。
具体的には、リソースに制約のある環境で、数倍のモデルよりも数倍のモデルよりも数学的な推論ベンチマークで比較可能またはより良いパフォーマンスを達成する16GBメモリのRTX 3080 TIで1.5Bパラメーター数学的推論モデルをトレーニングします。
私たちの結果は、最先端の数学的推論が大規模なインフラストラクチャを必要とするパラダイムに挑戦し、高性能AI研究へのアクセスを民主化します。
https://github.com/shinandrew/youronmath。

要約(オリジナル)

While large language models (LLMs) have achieved remarkable performance in various tasks including mathematical reasoning, their development typically demands prohibitive computational resources. Recent advancements have reduced costs for training capable models, yet even these approaches rely on high-end hardware clusters. In this paper, we demonstrate that a single average gaming GPU can train a solid mathematical reasoning model, by integrating reinforcement learning and memory optimization techniques. Specifically, we train a 1.5B parameter mathematical reasoning model on RTX 3080 Ti of 16GB memory that achieves comparable or better performance on mathematical reasoning benchmarks than models several times larger, in resource-constrained environments. Our results challenge the paradigm that state-of-the-art mathematical reasoning necessitates massive infrastructure, democratizing access to high-performance AI research. https://github.com/shinandrew/YouronMath.

arxiv情報

著者 Andrew Shin
発行日 2025-06-10 16:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク