要約
数学の単語問題は、K-8教育の重要なツールであるが、その作成には時間がかかり、専門知識が必要である。我々は、言語モデルが自動的に問題を生成することで、K-8の数学教育をサポートできることを提案する。教育的であるためには、生成された問題は1)解ける、2)正確、3)適切でなければならない。既存のデータセットはこれらの基準に対してラベル付けされていないため、問題生成器のトレーニングには適していない。我々はMATHWELLを紹介する。MATHWELLはLlama-2(70B)モデルを反復的に微調整したもので、専門家のアノテーションデータを用いてK-8数学の単語問題を生成する。MATHWELLを用いて、20,490の問題を含む、思考プログラム(PoT)の根拠を持つこれまでで最大の英単語問題データセットを生成する。3,484問が専門家によって採点され、MATHWELLは、実行可能な解答を持ち、すべての基準を満たす問題の割合が、代替案よりも40%高く、実行可能な解答を持つ問題の74%が、解答可能で、正確で、適切であることがわかりました。モデル、データ、注釈を公開します。
要約(オリジナル)
Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems at scale. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. We introduce MATHWELL, a Llama-2 (70B) model iteratively finetuned to generate K-8 math word problems using data from expert annotation. Using MATHWELL, we generate the largest English word problem dataset with Program of Thought (PoT) rationales to date, containing 20,490 problems. 3,484 are scored by domain experts who find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than alternatives, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. We release our model, data, and annotations.
arxiv情報
著者 | Bryan R Christ,Jonathan Kropko,Thomas Hartvigsen |
発行日 | 2024-03-01 14:39:30+00:00 |
arxivサイト | arxiv_id(pdf) |