Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model

要約

大規模言語モデル (LLM) は、膨大なパラメータ数と膨大なデータセットでのトレーニングにより、数学的推論タスクにおいて並外れた熟練度を示しています。
これらの機能にもかかわらず、LLM の導入は、計算上の要求によって妨げられます。
この課題の解決策として、LLM の数学的推論を小型言語モデル (SLM) に抽出することが登場しましたが、これらの小型モデルでは計算や意味の理解にエラーが発生することがよくあります。
以前の研究では、計算エラーを回避するために、思考プログラム蒸留 (PoTD) が提案されています。
意味理解エラーにさらに対処するために、キーポイント駆動の数学推論蒸留 (KPDD) を提案します。
KPDD は、問題解決プロセスを 3 つの段階 (核となる質問の抽出、問題解決情報の抽出、ステップバイステップの解決) に分割することにより、SLM の推論パフォーマンスを強化します。
この手法はさらに、思考連鎖の根拠を生成する KPDD-CoT と、思考プログラムの根拠を作成する KPDD-PoT に分類されます。
実験結果は、KPDD-CoT が推論能力を大幅に向上させ、KPDD-PoT が数学的推論タスクにおいて最先端のパフォーマンスを達成することを示しています。
私たちのアプローチは誤解によるエラーを効果的に軽減し、効率的で有能な SLM の導入を促進します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional proficiency in mathematical reasoning tasks due to their extensive parameter counts and training on vast datasets. Despite these capabilities, deploying LLMs is hindered by their computational demands. Distilling LLM mathematical reasoning into Smaller Language Models (SLMs) has emerged as a solution to this challenge, although these smaller models often suffer from errors in calculation and semantic understanding. Prior work has proposed Program-of-Thought Distillation (PoTD) to avoid calculation error. To further address semantic understanding errors, we propose Key-Point-Driven Mathematical Reasoning Distillation (KPDD). KPDD enhances the reasoning performance of SLMs by breaking down the problem-solving process into three stages: Core Question Extraction, Problem-Solving Information Extraction, and Step-by-Step Solution. This method is further divided into KPDD-CoT, which generates Chain-of-Thought rationales, and KPDD-PoT, which creates Program-of-Thought rationales. The experiment results show that KPDD-CoT significantly improves reasoning abilities, while KPDD-PoT achieves state-of-the-art performance in mathematical reasoning tasks. Our approach effectively mitigates misunderstanding errors, advancing the deployment of efficient and capable SLMs.

arxiv情報

著者 Xunyu Zhu,Jian Li,Can Ma,Weiping Wang
発行日 2024-07-30 08:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク