REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

要約

検証可能な報酬を伴う強化学習のための推論環境のライブラリであるReashing Gym(RG)を紹介します。
代数、算術、計算、認知、ジオメトリ、グラフ理論、論理、さまざまな一般的なゲームを含む複数のドメインにまたがる100を超えるデータジェネレーターと検証剤を提供します。
その主要な革新は、通常固定されているほとんどの以前の推論データセットとは異なり、調整可能な複雑さを備えた実質的に無限のトレーニングデータを生成する機能です。
この手続き上の生成アプローチにより、さまざまな難易度にわたって継続的な評価が可能になります。
私たちの実験結果は、推論モデルの評価学習と強化学習の両方においてRGの有効性を示しています。

要約(オリジナル)

We introduce Reasoning Gym (RG), a library of reasoning environments for reinforcement learning with verifiable rewards. It provides over 100 data generators and verifiers spanning multiple domains including algebra, arithmetic, computation, cognition, geometry, graph theory, logic, and various common games. Its key innovation is the ability to generate virtually infinite training data with adjustable complexity, unlike most previous reasoning datasets, which are typically fixed. This procedural generation approach allows for continuous evaluation across varying difficulty levels. Our experimental results demonstrate the efficacy of RG in both evaluating and reinforcement learning of reasoning models.

arxiv情報

著者 Zafir Stojanovski,Oliver Stanley,Joe Sharratt,Richard Jones,Abdulhakeem Adefioye,Jean Kaddour,Andreas Köpf
発行日 2025-05-30 16:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク