要約
効果的な教育測定は、適切に設計されたアイテムプールのキュレーション (つまり、適切な心理測定特性を備えていること) に大きく依存しています。
ただし、項目の調整には時間とコストがかかり、回答プロセスには十分な数の回答者が必要です。
私たちは、6 つの異なる LLM (GPT-3.5、GPT-4、Llama 2、Llama 3、Gemini-Pro、および Cohere Command R Plus) とそれらのさまざまな組み合わせを使用し、サンプリング手法を使用して人間の回答と同様の心理測定特性を持つ応答を生成することを検討します。
結果は、一部の LLM が大学代数に関して大学生と同等かそれ以上の熟練度を持っていることを示しています。
熟練度の分布が狭いため、単一の LLM が人間の回答者を模倣することはありませんが、LLM のアンサンブルは大学生の能力分布によりよく似ている可能性があります。
LLM 回答者によって校正された項目パラメータは、人間が校正した対応物と比較して高い相関関係 (例: GPT-3.5 の場合 > 0.8) を持ち、ヒトのサブセットのパラメータとよく似ています (例: スピアマン相関差 0.02)。
いくつかの拡張戦略が相対的なパフォーマンスで評価され、リサンプリング手法が最も効果的であることが証明され、スピアマン相関が 0.89 (人間のみ) から 0.93 (拡張人間) に向上しました。
要約(オリジナル)
Effective educational measurement relies heavily on the curation of well-designed item pools (i.e., possessing the right psychometric properties). However, item calibration is time-consuming and costly, requiring a sufficient number of respondents for the response process. We explore using six different LLMs (GPT-3.5, GPT-4, Llama 2, Llama 3, Gemini-Pro, and Cohere Command R Plus) and various combinations of them using sampling methods to produce responses with psychometric properties similar to human answers. Results show that some LLMs have comparable or higher proficiency in College Algebra than college students. No single LLM mimics human respondents due to narrow proficiency distributions, but an ensemble of LLMs can better resemble college students’ ability distribution. The item parameters calibrated by LLM-Respondents have high correlations (e.g. > 0.8 for GPT-3.5) compared to their human calibrated counterparts, and closely resemble the parameters of the human subset (e.g. 0.02 Spearman correlation difference). Several augmentation strategies are evaluated for their relative performance, with resampling methods proving most effective, enhancing the Spearman correlation from 0.89 (human only) to 0.93 (augmented human).
arxiv情報
著者 | Yunting Liu,Shreya Bhandari,Zachary A. Pardos |
発行日 | 2024-07-15 16:49:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google