要約
大規模言語モデル (LLM) は算術文章題を高精度で解くことができますが、トレーニングされた問題よりも複雑な問題に対して LLM がどの程度一般化できるかについてはほとんどわかっていません。
このような問題の実証的調査は、現在の評価の 2 つの大きな欠陥によって妨げられています。(i) 評価データの多くは、トレーニング中にすでに見られているという意味で汚染されています。(ii) ベンチマーク データセットは問題の証明方法を捉えていません。
さまざまな方法で任意に複雑になる可能性があります。
これらの問題に対処するためのステップとして、MathGAP と呼ばれる、任意に複雑な算術証明の問題について LLM を評価するためのフレームワークを紹介します。
MathGAP は、固定の証明仕様に従う問題を、思考連鎖推論の注釈とともに生成し、算術証明の複雑さに関する一般化に関する体系的な研究を可能にします。
MathGAP を適用して、コンテキスト内学習がより複雑な証明を持つ問題への一般化とどのように相互作用するかを分析します。
テストしたモデルのほとんどは、証明が深く広くなるにつれてパフォーマンスが大幅に低下することがわかりました。
この効果は、GPT-4o であっても困難な、複雑な非線形証明構造でより顕著になります。
驚くべきことに、テスト セットと同じディストリビューションからコンテキスト内の例を提供することは、パフォーマンスにとって常に有益であるとは限りません。
特に、ゼロショットのプロンプトだけでなく、テストデータよりも複雑ではないさまざまな例をデモンストレーションすると、同等またはより高い精度が得られる場合があります。
要約(オリジナル)
Large language models (LLMs) can solve arithmetic word problems with high accuracy, but little is known about how well they generalize to problems that are more complex than the ones on which they have been trained. Empirical investigations of such questions are impeded by two major flaws of current evaluations: (i) much of the evaluation data is contaminated, in the sense that it has already been seen during training, and (ii) benchmark datasets do not capture how problem proofs may be arbitrarily complex in various ways. As a step towards addressing these issues, we present a framework for evaluating LLMs on problems with arbitrarily complex arithmetic proofs, called MathGAP. MathGAP generates problems that follow fixed proof specifications — along with chain-of-thought reasoning annotations — enabling systematic studies on generalization with respect to arithmetic proof complexity. We apply MathGAP to analyze how in-context learning interacts with generalization to problems that have more complex proofs. We find that among the models tested, most show a significant decrease in performance as proofs get deeper and wider. This effect is more pronounced in complex, nonlinear proof structures, which are challenging even for GPT-4o. Surprisingly, providing in-context examples from the same distribution as the test set is not always beneficial for performance. In particular, zero-shot prompting as well as demonstrating a diverse range of examples that are less complex than the test data sometimes yield similar or higher accuracies.
arxiv情報
著者 | Andreas Opedal,Haruki Shirakami,Bernhard Schölkopf,Abulhair Saparov,Mrinmaya Sachan |
発行日 | 2024-10-21 15:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google