要約
教育現場で文章の理解度を評価することは、生徒の成績を理解し、カリキュラムの効果を向上させるために非常に重要です。
この研究では、国家カリキュラム教科書委員会 (NCTB) の授業用教科書からのバングラ語文章ベースの質問応答を自動的に評価する、RoBERTa Base、Bangla-BERT、および BERT Base-in という最先端の言語モデルの機能を調査します。
6-10.
約 3,000 のバングラ語パッセージベースの質問応答インスタンスのデータセットがコンパイルされ、さまざまなハイパーパラメーター構成にわたる F1 スコアと完全一致 (EM) メトリクスを使用してモデルが評価されました。
私たちの調査結果では、Bangla-BERT が常に他のモデルより優れたパフォーマンスを示し、特にバッチ サイズが小さく、ストップ ワードが含まれ、中程度の学習率で最高の F1 (0.75) および EM (0.53) スコアを達成したことが明らかになりました。
対照的に、RoBERTa Base は最も弱いパフォーマンスを示し、特定の構成では F1 (0.19) および EM (0.27) スコアが最低でした。
この結果は、モデルのパフォーマンスを最適化するためにハイパーパラメーターを微調整することの重要性を強調し、教育現場でのテキスト理解を評価する際の機械学習モデルの可能性を強調しています。
ただし、データセットのサイズ、スペルの不一致、計算上の制約などの制限により、これらのモデルの堅牢性と適用性を強化するためのさらなる研究の必要性が強調されています。
この研究は、教育機関における自動評価システムの将来の開発のための基礎を築き、バングラ語のテキスト理解の文脈におけるモデルのパフォーマンスについての重要な洞察を提供します。
要約(オリジナル)
Evaluating text comprehension in educational settings is critical for understanding student performance and improving curricular effectiveness. This study investigates the capability of state-of-the-art language models-RoBERTa Base, Bangla-BERT, and BERT Base-in automatically assessing Bangla passage-based question-answering from the National Curriculum and Textbook Board (NCTB) textbooks for classes 6-10. A dataset of approximately 3,000 Bangla passage-based question-answering instances was compiled, and the models were evaluated using F1 Score and Exact Match (EM) metrics across various hyperparameter configurations. Our findings revealed that Bangla-BERT consistently outperformed the other models, achieving the highest F1 (0.75) and EM (0.53) scores, particularly with smaller batch sizes, the inclusion of stop words, and a moderate learning rate. In contrast, RoBERTa Base demonstrated the weakest performance, with the lowest F1 (0.19) and EM (0.27) scores under certain configurations. The results underscore the importance of fine-tuning hyperparameters for optimizing model performance and highlight the potential of machine learning models in evaluating text comprehension in educational contexts. However, limitations such as dataset size, spelling inconsistencies, and computational constraints emphasize the need for further research to enhance the robustness and applicability of these models. This study lays the groundwork for the future development of automated evaluation systems in educational institutions, providing critical insights into model performance in the context of Bangla text comprehension.
arxiv情報
著者 | Abdullah Khondoker,Enam Ahmed Taufik,Md Iftekhar Islam Tashik,S M Ishtiak mahmud,Antara Firoz Parsa |
発行日 | 2024-12-24 13:59:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google