Creating Artificial Students that Never Existed: Leveraging Large Language Models and CTGANs for Synthetic Data Generation


本研究では、AIとディープラーニング技術、特にGenerative Adversarial Networks (GANs)とLarge Language Models (LLMs)が、合成表データを生成する可能性が高まっていることを探る。質の高い学生データへのアクセスは、学習分析を進める上で非常に重要であるが、プライバシーの懸念や世界的に厳しくなっているデータ保護規制により、その入手や利用が制限されている。合成データは有望な代替手段を提供します。我々は、学習分析モデルを提供するための人工生徒を作成するために、合成データを活用できるかどうかを調査する。一般的なGANモデルであるCTGANと3つのLLM-GPT2、DistilGPT2、DialoGPT-を用いて、人工的な表形式の生徒データを生成する。我々の結果は、これらの手法が実際の学生データに類似した高品質な合成データセットを生成できる可能性を示している。我々の発見を検証するために、合成データの統計的・予測的性能を評価するための包括的な実用性評価指標を適用し、使用した異なる生成モデル、特にLLMの性能を比較する。本研究の目的は、学習分析コミュニティに合成データの使用に関する貴重な洞察を提供し、学習分析データ生成のための新しい革新的なアプローチでこの分野の方法論的ツールボックスを拡張するための基礎を築くことである。


In this study, we explore the growing potential of AI and deep learning technologies, particularly Generative Adversarial Networks (GANs) and Large Language Models (LLMs), for generating synthetic tabular data. Access to quality students data is critical for advancing learning analytics, but privacy concerns and stricter data protection regulations worldwide limit their availability and usage. Synthetic data offers a promising alternative. We investigate whether synthetic data can be leveraged to create artificial students for serving learning analytics models. Using the popular GAN model CTGAN and three LLMs- GPT2, DistilGPT2, and DialoGPT, we generate synthetic tabular student data. Our results demonstrate the strong potential of these methods to produce high-quality synthetic datasets that resemble real students data. To validate our findings, we apply a comprehensive set of utility evaluation metrics to assess the statistical and predictive performance of the synthetic data and compare the different generator models used, specially the performance of LLMs. Our study aims to provide the learning analytics community with valuable insights into the use of synthetic data, laying the groundwork for expanding the field methodological toolbox with new innovative approaches for learning analytics data generation.


著者 Mohammad Khalil,Farhad Vadiee,Ronas Shakya,Qinyi Liu
発行日 2025-01-03 12:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク