Generating Mathematical Derivations with Large Language Models

要約

大規模言語モデル (LLM) を使用した専門分野での数学的結果の導出は、モデルの限界を特定するのに役立ち、数学的発見を潜在的にサポートできる新しい研究の方向性です。
この論文では、シンボリック エンジンを活用して大規模な方程式の導出を生成し、前提から目標方程式を導出する際の LLM の機能を調査します。
具体的には、GPT にインコンテキスト学習を採用し、さまざまな T5 モデルを微調整して、事前トレーニング戦略の堅牢性と一般化を特殊なモデルと比較します。
経験的な結果は、微調整された FLAN-T5-large (MathT5) が、絶対的なパフォーマンスの点で、すべての静的テスト セットおよび配布外テスト セットで GPT モデルよりも優れていることを示しています。
ただし、詳細な分析により、微調整されたモデルは、目に見えないシンボルを含む摂動や、(程度は低いですが) 方程式構造の変化に対してより敏感であることが明らかになりました。
さらに、1.7K の方程式と 200 を超える導出を分析して、不正確、無関係、冗長な方程式が含まれていることや、導出ステップをスキップする傾向など、一般的な推論エラーを明らかにします。
最後に、数学的導出を評価するための既存のメトリクスの適合性を調査し、摂動に対する感度などの一般的な特性を捉えているものの、モデル間のきめの細かい推論エラーや本質的な違いを強調できていないという証拠を発見しました。
全体として、この研究は、合成データ上でモデルをトレーニングすることで、大規模なアーキテクチャを超えて数学的能力を向上できることを示しています。

要約(オリジナル)

The derivation of mathematical results in specialised fields using Large Language Models (LLMs) is an emerging research direction that can help identify models’ limitations, and potentially support mathematical discovery. In this paper, we leverage a symbolic engine to generate derivations of equations at scale, and investigate the capabilities of LLMs when deriving goal equations from premises. Specifically, we employ in-context learning for GPT and fine-tune a range of T5 models to compare the robustness and generalisation of pre-training strategies to specialised models. Empirical results show that fine-tuned FLAN-T5-large (MathT5) outperforms GPT models on all static and out-of-distribution test sets in terms of absolute performance. However, an in-depth analysis reveals that the fine-tuned models are more sensitive to perturbations involving unseen symbols and (to a lesser extent) changes to equation structure. In addition, we analyse 1.7K equations and over 200 derivations to highlight common reasoning errors such as the inclusion of incorrect, irrelevant, and redundant equations, along with the tendency to skip derivation steps. Finally, we explore the suitability of existing metrics for evaluating mathematical derivations finding evidence that, while they capture general properties such as sensitivity to perturbations, they fail to highlight fine-grained reasoning errors and essential differences between models. Overall, this work demonstrates that training models on synthetic data can improve their mathematical capabilities beyond larger architectures.

arxiv情報

著者 Jordan Meadows,Marco Valentino,Andre Freitas
発行日 2023-07-19 14:13:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, math.HO パーマリンク