MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs

要約

大規模言語モデル (LLM) は、数学的推論において大きな可能性を示しています。
ただし、この領域では、既存のオープンソース モデルと GPT-4 などのクローズドソース モデルの間にパフォーマンスのギャップが残っています。
この論文では、小規模な問題解決データセット (シード データと呼ばれる) から多様で信頼性の高い数学問題を生成する新しい方法である MathGenie を紹介します。
シード データのグラウンド トゥルース ソリューションを拡張し、拡張されたソリューションを新しい質問に変換する逆変換モデルをトレーニングします。
その後、新しい質問に対してコードを統合したソリューションを生成します。
コード統合ソリューションの正確性を保証するために、当社ではソリューション検証に理論的根拠に基づいた戦略を採用しています。
7B から 70B までのさまざまな事前トレーニング済みモデルが、提案された拡張技術の有効性をテストするために新しく厳選されたデータでトレーニングされ、その結果、MathGenieLM として知られるモデルのファミリーが生まれます。
これらのモデルは、5 つの代表的な数学的推論データセットにわたって以前のオープンソース モデルを一貫して上回っており、最先端のパフォーマンスを実現しています。
特に、MathGenieLM-InternLM2 は、GSM8K で 87.7%、MATH で 55.7% の精度を達成し、オープンソース言語モデルの中で最高の総合スコアを確保しています。

要約(オリジナル)

Large language models (LLMs) have exhibited great potential in mathematical reasoning. However, there remains a performance gap in this area between existing open-source models and closed-source models such as GPT-4. In this paper, we introduce MathGenie, a novel method for generating diverse and reliable math problems from a small-scale problem-solution dataset (denoted as seed data). We augment the ground-truth solutions of our seed data and train a back-translation model to translate the augmented solutions back into new questions. Subsequently, we generate code-integrated solutions for the new questions. To ensure the correctness of the code-integrated solutions, we employ rationale-based strategy for solution verification. Various pretrained models, ranging from 7B to 70B, are trained on the newly curated data to test the effectiveness of the proposed augmentation technique, resulting in a family of models known as MathGenieLM. These models consistently outperform previous open-source models across five representative mathematical reasoning datasets, achieving state-of-the-art performance. In particular, MathGenieLM-InternLM2 achieves an accuracy of 87.7% on GSM8K and 55.7% on MATH, securing the best overall score among open-source language models.

arxiv情報

著者 Zimu Lu,Aojun Zhou,Houxing Ren,Ke Wang,Weikang Shi,Junting Pan,Mingjie Zhan,Hongsheng Li
発行日 2024-02-26 07:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク