From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision

要約

中間方程式による完全な監視を通じて数学文章題 (MWP) を解く際の高い注釈コストの課題に対処するため、最近の研究では、教師あり信号としての最終解答のみに依存する弱教師ありタスク設定が提案されています。
既存の主要なアプローチは通常、中間方程式を推論するためにさまざまな検索技術を使用しますが、自然言語記述との意味的一貫性を保証することはできません。
ChatGPT のようなラージ言語モデル (LLM) の台頭により、MWP に直接対処する新たな可能性が開かれました。
ただし、LLM の計算要求は、リソースが不足している環境での使用には理想的ではありません。
これらの課題を考慮して、私たちは数学的専門知識を大規模な言語モデルから小さな言語モデルに適切に伝達する革新的な 2 段階のフレームワークを導入します。
\emph{蒸留ステージ} では、LLM から数学的知識を蒸留して教師ありトレーニングに必要な問題と方程式のペアを構築するために、MWP の特性を満たす一連の抽出プロセスを提案します。
\emph{Refinement Stage} では、ナレッジ抽出手法ではすべてのデータを完全に活用することが保証できないため、検索に失敗したデータをナレッジ リファイン手法でさらに有効活用します。
最後に、2 段階の方法で生成された抽出データを使用して小さなモデルをトレーニングします。
私たちの方法は、「問題方程式」ペアの検索中に意味論的理解機能を最大限に活用しているため、ChatGPT よりもはるかに低い計算コストを維持しながら、既存の小規模モデル方法と比較して、Math23K および Weak12K データセットでのパフォーマンスが大幅に向上していることが実証されています。

要約(オリジナル)

Addressing the challenge of high annotation costs in solving Math Word Problems (MWPs) through full supervision with intermediate equations, recent works have proposed weakly supervised task settings that rely solely on the final answer as a supervised signal. Existing leading approaches typically employ various search techniques to infer intermediate equations, but cannot ensure their semantic consistency with natural language descriptions. The rise of Large Language Models (LLMs) like ChatGPT has opened up new possibilities for addressing MWPs directly. However, the computational demands of LLMs make them less than ideal for use in settings where resources are tight. In light of these challenges, we introduce an innovative two-stage framework that adeptly transfers mathematical Expertise from large to tiny language models. In \emph{Distillation Stage}, we propose a series of extraction processes that satisfy the properties of MWPs to distill mathematical knowledge from LLMs to construct problem-equation pairs required for supervised training. In \emph{Refinement Stage}, Due to Knowledge distilling method cannot guarantee the full utilization of all data, we further utilize the unsuccessfully searched data effectively by Knowledge Refine method. Finally, We train a small model using distilled data generated through two-stage methods. As our method fully leverages the semantic understanding capabilities during the searching ‘problem-equation’ pair, it demonstrates significantly improved performance on the Math23K and Weak12K datasets compared to existing small model methods, while maintaining a much lower computational cost than ChatGPT.

arxiv情報

著者 Qingwen Lin,Boyan Xu,Zhengting Huang,Ruichu Cai
発行日 2024-03-21 13:29:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク