要約
大規模言語モデル (LLM) は言語タスクには優れていますが、特にヒンディー語などの非英語言語では数学的推論に苦労します。
この研究は、ヒンディー語と英語の両方で、小規模でリソース効率の高いオープンソース LLM の数学的推論スキルを強化することを目的としています。
OpenHathi 7B、LLaMA-2 7B、WizardMath 7B、Mistral 7B、LLeMMa 7B、MAmmoTH 7B、Gemini Pro、GPT-4 などのモデルを、ゼロショット、少数ショットの思考連鎖 (CoT) メソッドを使用して評価します。
監修された微調整。
私たちのアプローチには、カリキュラム学習、ますます困難になる問題に対するモデルの段階的なトレーニング、複雑な算術演算を簡素化する新しい分解戦略、およびソリューションをフェーズに分割する構造化ソリューション設計が組み込まれています。
私たちの実験により、顕著なパフォーマンスの向上がもたらされました。
WizardMath 7B は、英語データセットでの Gemini の精度を +6% 上回り、ヒンディー語データセットでの Gemini のパフォーマンスに匹敵します。
英語とヒンディー語のサンプルを組み合わせたバイリンガル アプローチを採用すると、個々の言語モデルと同等の結果が得られ、両方の言語で数学的推論を学習できることが実証されました。
この研究は、オープンソース LLM における数学的推論を改善する可能性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) excel in linguistic tasks but struggle with mathematical reasoning, particularly in non English languages like Hindi. This research aims to enhance the mathematical reasoning skills of smaller, resource efficient open-source LLMs in both Hindi and English. We evaluate models like OpenHathi 7B, LLaMA-2 7B, WizardMath 7B, Mistral 7B, LLeMMa 7B, MAmmoTH 7B, Gemini Pro, and GPT-4 using zero-shot, few-shot chain-of-thought (CoT) methods, and supervised fine-tuning. Our approach incorporates curriculum learning, progressively training models on increasingly difficult problems, a novel Decomposition Strategy to simplify complex arithmetic operations, and a Structured Solution Design that divides solutions into phases. Our experiments result in notable performance enhancements. WizardMath 7B exceeds Gemini’s accuracy on English datasets by +6% and matches Gemini’s performance on Hindi datasets. Adopting a bilingual approach that combines English and Hindi samples achieves results comparable to individual language models, demonstrating the capability to learn mathematical reasoning in both languages. This research highlights the potential for improving mathematical reasoning in open-source LLMs.
arxiv情報
著者 | Avinash Anand,Kritarth Prasad,Chhavi Kirtani,Ashwin R Nair,Manvendra Kumar Nema,Raj Jaiswal,Rajiv Ratn Shah |
発行日 | 2024-12-24 13:07:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google