MATHWELL: Generating Age-Appropriate Educational Math Word Problems

要約

数学の文章題は幼稚園から高等学校までの重要な教育ツールですが、その作成には時間がかかり、専門知識が必要です。
私たちは、言語モデルが問題を自動的に生成することで幼稚園から高等学校までの数学教育をサポートできることを提案します。
教育的であるためには、生成される問題は 1) 解決可能、2) 正確、3) 適切である必要があります。
既存のデータセットにはこれらの基準のラベルが付けられていないため、問題ジェネレーターのトレーニングには適していません。
このギャップに対処するために、私たちはドメインエキスパートのアノテーションを使用して、このタスク用の高品質の合成トレーニング データセットをキュレーションします。
このデータを使用して Llama-2 (70B) を繰り返し微調整し、K-8 の単語問題ジェネレーターである MATHWELL を作成することで、このデータの価値を示します。
ドメインの専門家によると、MATHWELL は、実行可能なソリューションがあり、すべての基準を満たしている問題の割合が既存のオープンソース モデルよりも 40% 高く、実行可能なソリューションの問題の 74% が解決可能で、正確で、適切であることがわかりました。
MATHWELL は、幼稚園から高等学校までの生徒にとってより適切な読解レベルで書かれた問題を出力しながら、このタスクに関して GPT-4 Turbo のパフォーマンスの 94.9% を達成しています。
微調整によってトレーニングされたにもかかわらず、MATHWELL のパフォーマンスは、年齢に応じた文章問題ジェネレーターをトレーニングするための合成データの品質を強調しているだけです。
モデル、データ、アノテーションを公開します。

要約(オリジナル)

Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. To address this gap, we use domain expert annotation to curate a high-quality synthetic training dataset for this task. We show the value of this data by using it to iteratively finetune Llama-2 (70B) to create MATHWELL, a K-8 word problem generator. Domain experts find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than existing open-source models, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. MATHWELL achieves 94.9% of GPT-4 Turbo’s performance on this task while outputting problems written at a more appropriate reading level for K-8 students. MATHWELL’s performance despite being trained by finetuning only highlights the quality of our synthetic data for training age-appropriate word problem generators. We release our model, data, and annotations.

arxiv情報

著者 Bryan R Christ,Jonathan Kropko,Thomas Hartvigsen
発行日 2024-04-16 13:52:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク