Leveraging Large Language Models for Bengali Math Word Problem Solving with Chain of Thought Reasoning

要約

ベンガル語の数学の問題の問題(MWPS)の解決は、言語のリソースの低い状態と必要なマルチステップの推論により、自然言語処理(NLP)の大きな課題のままです。
既存のモデルは複雑なベンガル語MWPと格闘しています。これは、主に人間が注目したベンガル語のデータセットが以前にこのタスクに対処していないためです。
このギャップは、ベンガルの数学的推論における進歩が限られています。
これに対処するために、手動で書かれた段階的なソリューションを備えた8792の複雑なベンガルMWPのデータセットであるSomadhanを作成しました。
言語的に過小評価されているコンテキストで、推論に焦点を合わせた評価とモデル開発をサポートするためにこのデータセットを設計しました。
Somadhanを使用して、GPT-4O、GPT-3.5 Turbo、Llamaシリーズモデル、DeepSeek、Qwenなど、さまざまな大規模な言語モデル(LLMS)を評価しました。
COTプロンプトは、特にマルチステップロジックを必要とするタスクで、標準プロンプトのパフォーマンスを一貫して改善しました。
Llama-3.3 70bは、少ないショットのベッドプロンプトで88%の最高精度を達成しました。
また、低ランクの適応(LORA)を適用してモデルを効率的に微調整し、最小限の計算コストでベンガルMWPに適応できるようにしました。
私たちの仕事は、高品質の推論データセットと複雑なMWPを解くためのスケーラブルなフレームワークを提供することにより、ベンガルNLPの重要なギャップを埋めます。
私たちは、低リソース言語で公平な研究を進め、教育および言語技術の推論能力を強化することを目指しています。

要約(オリジナル)

Solving Bengali Math Word Problems (MWPs) remains a major challenge in natural language processing (NLP) due to the language’s low-resource status and the multi-step reasoning required. Existing models struggle with complex Bengali MWPs, largely because no human-annotated Bengali dataset has previously addressed this task. This gap has limited progress in Bengali mathematical reasoning. To address this, we created SOMADHAN, a dataset of 8792 complex Bengali MWPs with manually written, step-by-step solutions. We designed this dataset to support reasoning-focused evaluation and model development in a linguistically underrepresented context. Using SOMADHAN, we evaluated a range of large language models (LLMs) – including GPT-4o, GPT-3.5 Turbo, LLaMA series models, Deepseek, and Qwen – through both zero-shot and few-shot prompting with and without Chain of Thought (CoT) reasoning. CoT prompting consistently improved performance over standard prompting, especially in tasks requiring multi-step logic. LLaMA-3.3 70B achieved the highest accuracy of 88% with few-shot CoT prompting. We also applied Low-Rank Adaptation (LoRA) to fine-tune models efficiently, enabling them to adapt to Bengali MWPs with minimal computational cost. Our work fills a critical gap in Bengali NLP by providing a high-quality reasoning dataset and a scalable framework for solving complex MWPs. We aim to advance equitable research in low-resource languages and enhance reasoning capabilities in educational and language technologies.

arxiv情報

著者 Bidyarthi Paul,Jalisha Jashim Era,Mirazur Rahman Zim,Tahmid Sattar Aothoi,Faisal Muhammad Shah
発行日 2025-05-27 15:47:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク