MATHWELL: Generating Educational Math Word Problems at Scale

要約

数学の文章題は幼稚園から高等学校までの重要な教育ツールですが、その作成には時間がかかり、専門知識が必要です。
私たちは、言語モデルが大規模な問題を自動的に生成することで、幼稚園から高等学校までの数学教育をサポートできることを提案します。
教育的であるためには、生成される問題は 1) 解決可能、2) 正確、3) 適切である必要があります。
既存のデータセットにはこれらの基準のラベルが付けられていないため、問題ジェネレーターのトレーニングには適していません。
エキスパートの注釈からのデータを使用して幼稚園から中学までの数学の文章問題を生成するために反復的に微調整された Llama-2 (70B) モデルである MATHWELL を紹介します。
MATHWELL を使用して、20,490 の問題を含む、これまでで最大の思考プログラム (PoT) 根拠を含む英単語問題データセットを生成します。
3,484 はドメイン専門家によって採点され、MATHWELL は代替案よりも実行可能な解決策があり、すべての基準を満たす問題の割合が 40% 高く、実行可能な解決策のある問題の 74% が解決可能、正確、適切であることがわかりました。
モデル、データ、アノテーションを公開します。

要約(オリジナル)

Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems at scale. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. We introduce MATHWELL, a Llama-2 (70B) model iteratively finetuned to generate K-8 math word problems using data from expert annotation. Using MATHWELL, we generate the largest English word problem dataset with Program of Thought (PoT) rationales to date, containing 20,490 problems. 3,484 are scored by domain experts who find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than alternatives, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. We release our model, data, and annotations.

arxiv情報

著者 Bryan R Christ,Jonathan Kropko,Thomas Hartvigsen
発行日 2024-02-28 15:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク