要約
大規模言語モデル (LLM) は、さまざまなドメインにわたって優れたパフォーマンスを示しますが、算術推論タスクでは依然として困難を伴います。
最近の研究では、プロンプト設計手法が推論能力の向上に有効であることが示されています。
しかし、これらのアプローチでは、ほとんどの算術推論の問題にうまく取り組むための、特定の概念、定理、トリックに関する事前知識という重要な要件が見落とされています。
この問題に対処するために、私たちは、生徒を指導する教師の指導プロセスをエミュレートする、斬新で効果的な教育にインスピレーションを得た統合フレームワークを提案します。
この方法は、LLM に本質的な概念、関連する定理、および同様の解決アプローチによる同様の問題を提供し、推論能力の強化を促進します。
さらに、2 つの新しい中国語データセット、MathMC と MathToF を詳細な説明と回答とともに紹介します。
実験は 9 つのベンチマークで行われ、私たちのアプローチが LLM の推論精度を向上させることを示しています。
GPT-4 と当社のフレームワークにより、4 つの数学ベンチマーク (AddSub、SVAMP、Math23K、AQuA) で 98.2% (+3.3%)、93.9% (+0.2%) の精度を備えた新しい最先端のパフォーマンスを達成しました。
、94.3% (+7.2%)、81.1% (+1.2%)。
データとコードは https://github.com/SallyTan13/Teaching-Inspired-Prompting で入手できます。
要約(オリジナル)
Large Language Models (LLMs) exhibit impressive performance across various domains but still struggle with arithmetic reasoning tasks. Recent work shows the effectiveness of prompt design methods in enhancing reasoning capabilities. However, these approaches overlook crucial requirements for prior knowledge of specific concepts, theorems, and tricks to tackle most arithmetic reasoning problems successfully. To address this issue, we propose a novel and effective Teaching-Inspired Integrated Framework, which emulates the instructional process of a teacher guiding students. This method equips LLMs with essential concepts, relevant theorems, and similar problems with analogous solution approaches, facilitating the enhancement of reasoning abilities. Additionally, we introduce two new Chinese datasets, MathMC and MathToF, both with detailed explanations and answers. Experiments are conducted on nine benchmarks which demonstrates that our approach improves the reasoning accuracy of LLMs. With GPT-4 and our framework, we achieve new state-of-the-art performance on four math benchmarks (AddSub, SVAMP, Math23K and AQuA) with accuracies of 98.2% (+3.3%), 93.9% (+0.2%), 94.3% (+7.2%) and 81.1% (+1.2%). Our data and code are available at https://github.com/SallyTan13/Teaching-Inspired-Prompting.
arxiv情報
著者 | Wenting Tan,Dongxiao Chen,Jieting Xue,Zihao Wang,Taijie Chen |
発行日 | 2024-10-10 16:02:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google