Early Detection of At-Risk Students Using Machine Learning

要約

この研究では、教師あり機械学習と、Canvas とカリフォルニア州立大学フラートン校のダッシュボードを使用して 2023 年秋から収集された 3 つの独自のデータ カテゴリ、エンゲージメント、人口統計、およびパフォーマンス データを使用して、リスクにさらされている学生を特定するという課題に対処するための予備研究を紹介します。
私たちは、リスクのある学生をスクリーニングし、高リスク識別システムを構築することで、高等教育の定着と学生の中退率という永続的な課題に取り組むことを目指しています。
この取り組みは、従来の指標とともにこれまで見落とされてきた行動要因に焦点を当てることで、教育格差に対処し、学生の成果を向上させ、大学の分野全体で学生の成功を大幅に高めることを目的としています。
前処理ステップは、ターゲット変数の確立、学生情報の匿名化、欠落データの管理、および最も重要な特徴の特定のために行われます。
データセット内の混合データ タイプとこの研究のバイナリ分類の性質を考慮して、この作業では、サポート ベクター マシン (SVM)、ナイーブ ベイズ、K 最近傍 (KNN)、デシジョン ツリー、ロジスティック回帰、
そしてランダムフォレスト。
これらのモデルは、リスクにさらされている学生を予測し、学生の成績が最も脆弱になる学期の重要な時期を特定します。
モデルの信頼性を確保するために、トレーニング テスト分割や k 分割交差検証などの検証手法を使用します。
私たちの分析では、すべてのアルゴリズムが危険にさらされている生徒の予測に関して許容可能な結果を​​生成する一方、Naive Bayes が全体的に最高のパフォーマンスを示していることが示されています。

要約(オリジナル)

This research presents preliminary work to address the challenge of identifying at-risk students using supervised machine learning and three unique data categories: engagement, demographics, and performance data collected from Fall 2023 using Canvas and the California State University, Fullerton dashboard. We aim to tackle the persistent challenges of higher education retention and student dropout rates by screening for at-risk students and building a high-risk identification system. By focusing on previously overlooked behavioral factors alongside traditional metrics, this work aims to address educational gaps, enhance student outcomes, and significantly boost student success across disciplines at the University. Pre-processing steps take place to establish a target variable, anonymize student information, manage missing data, and identify the most significant features. Given the mixed data types in the datasets and the binary classification nature of this study, this work considers several machine learning models, including Support Vector Machines (SVM), Naive Bayes, K-nearest neighbors (KNN), Decision Trees, Logistic Regression, and Random Forest. These models predict at-risk students and identify critical periods of the semester when student performance is most vulnerable. We will use validation techniques such as train test split and k-fold cross-validation to ensure the reliability of the models. Our analysis indicates that all algorithms generate an acceptable outcome for at-risk student predictions, while Naive Bayes performs best overall.

arxiv情報

著者 Azucena L. Jimenez Martinez,Kanika Sood,Rakeshkumar Mahto
発行日 2024-12-12 17:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク