MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations

要約

数学の文章問題は幼稚園から高等学校までの重要な教育ツールですが、作成には時間がかかり、広範な専門知識が必要です。
教育的であるためには、問題は解決可能であり、正確な答えがあり、そして最も重要なことに、教育的に適切である必要があります。
私たちは、言語モデルが文章問題を自動的に生成することで幼稚園から中学までの数学教育をサポートできる可能性を秘めていると提案します。
ただし、教育の適切性を評価することは定量化するのが困難です。
私たちは、既存のモデルやデータが教育的に適切ではないことが多い LLM によって生成された問題を教師に評価させることで、このギャップを埋めています。
次に、教育用の文章問題を自動的に生成することを検討し、最終的には専門家の注釈を使用して 70B 言語モデルを微調整します。
私たちのモデル MATHWELL は、教育上の適切性をターゲットとした初の幼稚園から中学校までの単語問題ジェネレーターです。
さらなる専門家の研究により、MATHWELL は公開モデルよりもはるかに解決可能で正確かつ適切な問題を生成することがわかりました。
また、MATHWELL は GPT-4 の問題品質と一致すると同時に、幼稚園から高等学校までの生徒にとってより適切な読解レベルを達成し、有害な質問の生成を回避します。

要約(オリジナル)

Math word problems are critical K-8 educational tools, but writing them is time consuming and requires extensive expertise. To be educational, problems must be solvable, have accurate answers, and, most importantly, be educationally appropriate. We propose that language models have potential to support K-8 math education by automatically generating word problems. However, evaluating educational appropriateness is hard to quantify. We fill this gap by having teachers evaluate problems generated by LLMs, who find existing models and data often fail to be educationally appropriate. We then explore automatically generating educational word problems, ultimately using our expert annotations to finetune a 70B language model. Our model, MATHWELL, is the first K-8 word problem generator targeted at educational appropriateness. Further expert studies find MATHWELL generates problems far more solvable, accurate, and appropriate than public models. MATHWELL also matches GPT-4’s problem quality while attaining more appropriate reading levels for K-8 students and avoiding generating harmful questions.

arxiv情報

著者 Bryan R Christ,Jonathan Kropko,Thomas Hartvigsen
発行日 2024-09-27 11:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク