System-2 Mathematical Reasoning via Enriched Instruction Tuning

要約

システム 2 推論によって複雑な数学的問題を解決することは人間の自然なスキルですが、現在の大規模言語モデル (LLM) にとっては依然として大きな課題です。
私たちは、意図的な多段階推論データの不足が主な制限要因であると特定しています。
この目的を達成するために、人間と AI のフィードバックを相乗して、きめの細かい推論軌道を作成することで、人間が注釈を付けた既存の数学的データセットを強化する手法である強化命令チューニング (EIT) を導入します。
これらのデータセットは、オープンソース LLM を微調整するために使用され、記号検証プログラムに依存せずに数学的推論能力を強化します。
具体的には、EIT は、推論プランによる強化 (ERP) と推論による強化ステップ (ERS) という 2 つの重要なステップで構成されます。
前者は、複雑な命令を一連の単純な目的に分解する高レベルの計画を生成します。一方、ERS は、人間のアノテーターが見落としがちな推論コンテキストを埋めて、LLM 微調整のためのよりスムーズな推論軌道を作成します。
LLM の内部知識のみに依存して推論チェーンを生成する既存の CoT プロンプト手法とは異なり、私たちの手法は人間が注釈を付けた最初の回答を「メタ知識」として活用し、LLM がより詳細で正確な推論プロセスを生成できるようにし、より信頼できる LLM 専門家を導き出します。
複雑な数学的問題に。
実験では、EIT は GSM8K で 84.1%、MATH で 32.5% の精度を達成し、最先端の微調整およびプロンプト手法を上回り、ツール拡張手法のパフォーマンスにも匹敵します。

要約(オリジナル)

Solving complex mathematical problems via system-2 reasoning is a natural human skill, yet it remains a significant challenge for current large language models (LLMs). We identify the scarcity of deliberate multi-step reasoning data as a primary limiting factor. To this end, we introduce Enriched Instruction Tuning (EIT), a method that enriches existing human-annotated mathematical datasets by synergizing human and AI feedback to create fine-grained reasoning trajectories. These datasets are then used to fine-tune open-source LLMs, enhancing their mathematical reasoning abilities without reliance on any symbolic verification program. Concretely, EIT is composed of two critical steps: Enriching with Reasoning Plan (ERP) and Enriching with Reasoning Step (ERS). The former generates a high-level plan that breaks down complex instructions into a sequence of simpler objectives, while ERS fills in reasoning contexts often overlooked by human annotators, creating a smoother reasoning trajectory for LLM fine-tuning. Unlike existing CoT prompting methods that generate reasoning chains only depending on LLM’s internal knowledge, our method leverages human-annotated initial answers as “meta-knowledge” to help LLMs generate more detailed and precise reasoning processes, leading to a more trustworthy LLM expert for complex mathematical problems. In experiments, EIT achieves an accuracy of 84.1% on GSM8K and 32.5% on MATH, surpassing state-of-the-art fine-tuning and prompting methods, and even matching the performance of tool-augmented methods.

arxiv情報

著者 Huanqia Cai,Yijun Yang,Zhifeng Li
発行日 2024-12-24 11:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク