要約
大規模言語モデル (LLM) を使用した正確な数学的推論は、そのような推論に大きく依存するドメインに革命を起こす上で極めて重要です。
ただし、LLM は数学的推論の特定の側面で困難に遭遇することが多く、推論に欠陥が生じたり、誤った結果が生じたりします。
これらの問題を軽減するために、LLM に固有の能力として自己修正を組み込むように特別に設計された新しいメカニズムである自己修正チェーン (CoSC) を導入し、LLM が自身の結果を検証して修正できるようにします。
CoSC メカニズムは、一連の自己修正段階を通じて動作します。
各段階で、LLM は特定の問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行して出力を取得し、その後この出力を検証します。
検証に基づいて、LLM は次の修正段階に進むか、回答を最終的に決定します。
この反復的な自己修正プロセスにより、LLM は推論ステップを改良し、数学的推論の精度を向上させることができます。
CoSC メカニズムを低コストで実現するために、2 段階の微調整アプローチを採用しています。
最初のフェーズでは、GPT-4 から生成された比較的少量のシーディング データを使用して LLM がトレーニングされ、初期 CoSC 機能が確立されます。
第 2 フェーズでは、有料の GPT-4 に依存せず、第 1 フェーズでトレーニングされたモデルを使用して、より大量の自己生成データでトレーニングすることにより、CoSC 機能がさらに強化されます。
私たちの包括的な実験では、CoSC が既存のオープンソース LLM の中で従来の数学的データセットのパフォーマンスを大幅に向上させることを実証しています。
特に、当社の CoSC-Code-34B モデルは、パブリック ドメインで最も困難な数学的推論データセットである MATH で 53.5% のスコアを達成し、ChatGPT、GPT-4、さらにはマルチモーダル LLM などの確立されたモデルのパフォーマンスを上回りました。
GPT-4V、Gemini-1.0 Pro、Gemini-1.0 Ultraなど。
要約(オリジナル)
Accurate mathematical reasoning with Large Language Models (LLMs) is crucial in revolutionizing domains that heavily rely on such reasoning. However, LLMs often encounter difficulties in certain aspects of mathematical reasoning, leading to flawed reasoning and erroneous results. To mitigate these issues, we introduce a novel mechanism, the Chain of Self-Correction (CoSC), specifically designed to embed self-correction as an inherent ability in LLMs, enabling them to validate and rectify their own results. The CoSC mechanism operates through a sequence of self-correction stages. In each stage, the LLMs generate a program to address a given problem, execute this program using program-based tools to obtain an output, subsequently verify this output. Based on the verification, the LLMs either proceed to the next correction stage or finalize the answer. This iterative self-correction process allows the LLMs to refine their reasoning steps and improve the accuracy of their mathematical reasoning. To enable the CoSC mechanism at a low cost, we employ a two-phase finetuning approach. In the first phase, the LLMs are trained with a relatively small volume of seeding data generated from GPT-4, establishing an initial CoSC capability. In the second phase, the CoSC capability is further enhanced by training with a larger volume of self-generated data using the trained model in the first phase, without relying on the paid GPT-4. Our comprehensive experiments demonstrate that CoSC significantly improves performance on traditional mathematical datasets among existing open-source LLMs. Notably, our CoSC-Code-34B model achieved a 53.5% score on MATH, the most challenging mathematical reasoning dataset in the public domain, surpassing the performance of well-established models such as ChatGPT, GPT-4, and even multi-modal LLMs like GPT-4V, Gemini-1.0 Pro, and Gemini-1.0 Ultra.
arxiv情報
著者 | Kuofeng Gao,Huanqia Cai,Qingyao Shuai,Dihong Gong,Zhifeng Li |
発行日 | 2024-10-14 17:16:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google