SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving

要約

大規模言語モデル (LLM) は、近年の人工知能の大幅な進歩を推進し、数学的問題解決を含む幅広いタスクにわたって優れた機能を発揮します。
サブゴールベースの手法の成功に触発されて、LLM の数学的問題を解決する能力を強化するために、\textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) と呼ばれる新しいフレームワークを提案します。
SEGO は、サブ目標の内訳プロセスと問題解決の確率との関係を確立することで、理論的な保証を備えたより良いサブ目標を特定することを目指しています。
大規模なソリューション空間で適切なサブ目標を特定するという課題に対処するために、当社のフレームワークは問題固有のサブ目標を生成し、慎重に設計された基準に従ってそれらを調整します。
これらの最適化されたサブ目標をポリシー モデルのトレーニングに組み込むと、問題解決のパフォーマンスが大幅に向上します。
私たちは、GSM8K と MATH という 2 つのベンチマークでの実験を通じて SEGO の有効性を検証します。この場合、私たちのアプローチは既存の手法よりも優れており、AI 主導の数学的問題解決における SEGO の可能性が強調されています。
この論文に関連するデータとコードは、https://github.com/zhaoxlpku/SEGO で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have driven substantial progress in artificial intelligence in recent years, exhibiting impressive capabilities across a wide range of tasks, including mathematical problem-solving. Inspired by the success of subgoal-based methods, we propose a novel framework called \textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) to enhance LLMs’ ability to solve mathematical problems. By establishing a connection between the subgoal breakdown process and the probability of solving problems, SEGO aims to identify better subgoals with theoretical guarantees. Addressing the challenge of identifying suitable subgoals in a large solution space, our framework generates problem-specific subgoals and adjusts them according to carefully designed criteria. Incorporating these optimized subgoals into the policy model training leads to significant improvements in problem-solving performance. We validate SEGO’s efficacy through experiments on two benchmarks, GSM8K and MATH, where our approach outperforms existing methods, highlighting the potential of SEGO in AI-driven mathematical problem-solving. Data and code associated with this paper will be available at https://github.com/zhaoxlpku/SEGO

arxiv情報

著者 Xueliang Zhao,Xinting Huang,Wei Bi,Lingpeng Kong
発行日 2023-10-19 17:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク