Learning Math Reasoning from Self-Sampled Correct and Partially-Correct Solutions

要約

事前トレーニング済みの言語モデルは、多くの自然言語処理タスクで優れたパフォーマンスを示していますが、小学校の数学の問題のような多段階の形式的な推論タスクには依然として苦労しています。
このような数学推論の問題を解決するためにそれらを微調整する際の重要な課題の 1 つは、多くの既存のデータセットには、問題ごとに 1 つの参照ソリューションしか含まれていないことです。これは、多くの場合、最終的な答えへのさまざまな推論パスに似た代替ソリューションが存在するという事実にもかかわらずです。
このように、微調整されたモデルは限定された参照ソリューションに偏り、一般化が目に見えない例に制限されます。
この問題を軽減するために、モデルがトレーニング中にサンプリングを実行し、実行時に正しい答えを生成する自己サンプリングされた完全に正しい解と、中間状態が中間状態に一致する部分的に正しい解の両方から学習することを提案します。
既知の正解。
自己サンプリングされた正しいソリューションと部分的に正しいソリューションを使用すると、学習に役立ち、サンプリング プロセスをガイドして、ソリューション スペースのより効率的な調査につながることを示します。
さらに、例ごとに複数のソリューションからの学習をサポートするために、さまざまなトレーニング目標を調査し、それらがパフォーマンスに大きく影響することを発見しました。
2 つの数学推論データセットでの実験では、MLE を使用した単一の参照ソリューションから学習する場合と比較して、この方法の有効性が示されています。GSM8K では PASS@100 が 35.5% から 44.5% に、MathQA では PASS@80 が 27.6% から 36.2% に改善されています。
このような改善は、異なるモデル サイズでも一貫しています。
私たちのコードは、https://github.com/microsoft/TraceCodegen で入手できます。

要約(オリジナル)

Pretrained language models have shown superior performance on many natural language processing tasks, yet they still struggle at multi-step formal reasoning tasks like grade school math problems. One key challenge of finetuning them to solve such math reasoning problems is that many existing datasets only contain one reference solution for each problem, despite the fact that there are often alternative solutions resembling different reasoning paths to the final answer. This way, the finetuned models are biased towards the limited reference solutions, which limits their generalization to unseen examples. To mitigate this issue, we propose to let the model perform sampling during training and learn from both self-sampled fully-correct solutions, which yield the correct answer upon execution, and partially-correct solutions, whose intermediate state matches an intermediate state of a known correct solution. We show that our use of self-sampled correct and partially-correct solutions can benefit learning and help guide the sampling process, leading to more efficient exploration of the solution space. Additionally, we explore various training objectives to support learning from multiple solutions per example and find they greatly affect the performance. Experiments on two math reasoning datasets show the effectiveness of our method compared to learning from a single reference solution with MLE, where we improve PASS@100 from 35.5% to 44.5% for GSM8K, and 27.6% to 36.2% PASS@80 for MathQA. Such improvements are also consistent across different model sizes. Our code is available at https://github.com/microsoft/TraceCodegen.

arxiv情報

著者 Ansong Ni,Jeevana Priya Inala,Chenglong Wang,Oleksandr Polozov,Christopher Meek,Dragomir Radev,Jianfeng Gao
発行日 2023-02-17 17:32:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.PL パーマリンク