A mixed policy to improve performance of language models on math problems

要約

数学の問題を解く場合、ほとんどの言語モデルはサンプリング戦略を採用し、条件付き確率に従って次の単語を予測します。
数学的推論のステップでは、間違った答えが生成される可能性があります。
数学の問題が決定論的であることを考慮して、強化学習を使用して数学問題を解決するための混合ポリシー探索アプローチを提案します。
独特なことに、我々は 2 レベルのトークン探索ポリシーを提案します。抽象レベルは確率で次のトークンを探索し、第 2 レベルは決定論的です。
具体的には、抽象レベルのポリシーは、トークンが演算子であるかオペランドであるかを確率サンプリングで決定しますが、第 2 レベルは決定論的で、最も高いスコアを持つ次のトークンを貪欲な方法で選択します。
GPT-2 モデルを使用して GSM8K データセットでメソッドをテストし、$2\%$ 以上のパフォーマンスの向上を実証しました。
私たちの実装は https://github.com/vividitytech/math_lm_rl で入手できます。

要約(オリジナル)

When to solve math problems, most language models take a sampling strategy to predict next word according conditional probabilities. In the math reasoning step, it may generate wrong answer. Considering math problems are deterministic, we propose a mixed policy exploration approach to solve math problems with reinforcement learning. In peculiar, we propose a two level token exploration policy: the abstract level explores next token with probability and the second level is deterministic. Specifically, the abstract level policy will decide whether the token is operator or operand with probability sampling, while the second level is deterministic to select next token with the highest score in a greedy way. We test our method on GSM8K dataset with GPT-2 model, and demonstrate more than $2\%$ performance gain. Our implementation is available at https://github.com/vividitytech/math_lm_rl.

arxiv情報

著者 Gang Chen
発行日 2023-07-17 18:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.AI, cs.CL, cs.LG, I.2.6 パーマリンク