Generating Mathematical Derivations with Large Language Models

要約

大規模言語モデル (LLM) を使用した特殊な分野での数学的結果の導出は、モデルの限界を特定するのに役立ち、数学的発見を潜在的にサポートできる新たな研究の方向性です。
この論文では、シンボリック エンジンを活用して大規模な方程式の導出を生成し、前提から目標方程式を導出する際の LLM の機能を調査します。
具体的には、GPT にインコンテキスト学習を採用し、さまざまな T5 モデルを微調整して、事前トレーニング戦略の堅牢性と一般化を特殊なモデルと比較します。
経験的な結果は、微調整された FLAN-T5-large (MathT5) が、すべての静的テスト セットおよび分布外テスト セットにおいて、従来のスコアで GPT モデルよりも優れたパフォーマンスを示すことを示しています。
ただし、詳細な分析により、微調整されたモデルは、目に見えないシンボルを含む摂動や、(程度は低いですが) 方程式構造の変化に対してより敏感であることが明らかになりました。
さらに、1.7K の方程式と 200 を超える導出を分析し、不正確な方程式、無関係な方程式、冗長な方程式が含まれているなど、一般的な推論エラーを明らかにします。
最後に、数学的導出を評価するための既存のメトリクスの適合性を調査し、それらのメトリクスは摂動に対する感度などの一般的な特性を捉えることはできるものの、きめの細かい推論エラーやモデル間の本質的な違いを強調することができないという証拠を見つけます。
全体として、この研究は、合成データ上でモデルをトレーニングすると、はるかに大規模な LLM を超えて数学的能力が向上する可能性があることを示していますが、現在の指標では、生成された数学的テキストの品質が適切に評価されていません。

要約(オリジナル)

The derivation of mathematical results in specialised fields, using Large Language Models (LLMs), is an emerging research direction that can help identify models’ limitations, and potentially support mathematical discovery. In this paper, we leverage a symbolic engine to generate derivations of equations at scale, and investigate the capabilities of LLMs when deriving goal equations from premises. Specifically, we employ in-context learning for GPT and fine-tune a range of T5 models to compare the robustness and generalisation of pre-training strategies to specialised models. Empirical results show that fine-tuned FLAN-T5-large (MathT5) outperforms GPT models on all static and out-of-distribution test sets in conventional scores. However, an in-depth analysis reveals that the fine-tuned models are more sensitive to perturbations involving unseen symbols and (to a lesser extent) changes to equation structure. In addition, we analyse 1.7K equations, and over 200 derivations, to highlight common reasoning errors such as the inclusion of incorrect, irrelevant, and redundant equations. Finally, we explore the suitability of existing metrics for evaluating mathematical derivations and find evidence that, while they can capture general properties such as sensitivity to perturbations, they fail to highlight fine-grained reasoning errors and essential differences between models. Overall, this work demonstrates that training models on synthetic data may improve their math capabilities beyond much larger LLMs, but current metrics are not appropriately assessing the quality of generated mathematical text.

arxiv情報

著者 Jordan Meadows,Marco Valentino,Andre Freitas
発行日 2023-08-08 12:23:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, math.HO パーマリンク