要約
大規模な言語モデルは、さまざまなドメインで強力なパフォーマンスを示していますが、数学的な推論において多くの悪いケースと苦労しています。
エラーから学習するための以前のアプローチは、孤立した悪いケースからのみ推定することにより、トレーニングデータを統合し、それによりこれらのケースに固有の広範なパターンを一般化することに失敗します。
このホワイトペーパーでは、これらのモデルの弱点に対処し、より一般化されたターゲットトレーニングデータを合成するフレームワークである自己誤差(SEI)を紹介します。
具体的には、悪いケースを特定するために、2つの数学データセット、GSM8Kと数学のターゲットモデルを調査します。
次に、インストラクターモデル(GPT-4O)分析に基づいてこれらのケースのエラーキーフレーズを生成し、これらのキーフレーズをクラスタリングすることによりエラータイプを識別します。
次に、識別された各エラータイプの各世代の間にいくつかの悪いケースをサンプリングし、それらをインストラクターモデルに入力します。これは、自己インストラクションアプローチを使用して追加のトレーニングデータを合成します。
この新しいデータは、最も効果的な例のみが保持されるように、ワンショット学習プロセスを通じて改良されます。
最後に、これらのキュレーションされたデータを使用してターゲットモデルを微調整し、プロセスを繰り返し繰り返してパフォーマンスを向上させます。
さまざまなモデルにフレームワークを適用し、ドメイン内およびドメイン外の数学データセットの両方で推論能力の改善を観察します。
これらの結果は、エラーの一般化を通じてLLMSの数学的推論を改善する際の自己誤差指導の有効性を示しています。
要約(オリジナル)
Although large language models demonstrate strong performance across various domains, they still struggle with numerous bad cases in mathematical reasoning. Previous approaches to learning from errors synthesize training data by solely extrapolating from isolated bad cases, thereby failing to generalize the extensive patterns inherent within these cases. This paper presents Self-Error-Instruct (SEI), a framework that addresses these model weaknesses and synthesizes more generalized targeted training data. Specifically, we explore a target model on two mathematical datasets, GSM8K and MATH, to pinpoint bad cases. Then, we generate error keyphrases for these cases based on the instructor model’s (GPT-4o) analysis and identify error types by clustering these keyphrases. Next, we sample a few bad cases during each generation for each identified error type and input them into the instructor model, which synthesizes additional training data using a self-instruct approach. This new data is refined through a one-shot learning process to ensure that only the most effective examples are kept. Finally, we use these curated data to fine-tune the target model, iteratively repeating the process to enhance performance. We apply our framework to various models and observe improvements in their reasoning abilities across both in-domain and out-of-domain mathematics datasets. These results demonstrate the effectiveness of self-error instruction in improving LLMs’ mathematical reasoning through error generalization.
arxiv情報
著者 | Erxin Yu,Jing Li,Ming Liao,Qi Zhu,Boyang Xue,Minghui Xu,Baojun Wang,Lanqing Hong,Fei Mi,Lifeng Shang |
発行日 | 2025-05-28 17:02:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google