Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models

要約

この論文では、数学的問題の表面形式と大規模な言語モデルによるその解決可能性との関係を研究します。
私たちは、表面形式の微妙な変更が解答分布と解決率に大きな影響を与える可能性があることを発見し、複雑な問題の推論において言語モデルの堅牢性と表面形式に対する感度の欠如を明らかにしました。
数学的推論のパフォーマンスを向上させるために、問題の特定の表面形式から推論パスを多様化する、パラフレーズに対する自己一貫性 (SCoP) を提案します。
3 つの大規模な言語モデルに対する 4 つの数学的推論ベンチマークでアプローチを評価し、SCoP が特に最初に解決不可能と思われた問題に対して、バニラの自己無撞着性よりも数学的推論のパフォーマンスを向上させることを示します。
最後に、問題の難易度と表面形式に関する追加の実験と議論を提供します。これには、モデル間の難易度の一致と言い換えの伝達性、および言語モデルの評価のための変動の分散 (VOV) が含まれます。

要約(オリジナル)

This paper studies the relationship between the surface form of a mathematical problem and its solvability by large language models. We find that subtle alterations in the surface form can significantly impact the answer distribution and the solve rate, exposing the language model’s lack of robustness and sensitivity to the surface form in reasoning through complex problems. To improve mathematical reasoning performance, we propose Self-Consistency-over-Paraphrases (SCoP), which diversifies reasoning paths from specific surface forms of the problem. We evaluate our approach on four mathematics reasoning benchmarks over three large language models and show that SCoP improves mathematical reasoning performance over vanilla self-consistency, particularly for problems initially deemed unsolvable. Finally, we provide additional experiments and discussion regarding problem difficulty and surface forms, including cross-model difficulty agreement and paraphrasing transferability, and Variance of Variations (VOV) for language model evaluation.

arxiv情報

著者 Yue Zhou,Yada Zhu,Diego Antognini,Yoon Kim,Yang Zhang
発行日 2024-04-17 15:53:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク