要約
学生の共同問題解決(CPS)コンピテンシーを解釈するために、デジタルトレースから共同解決の行動を検出することは、教育における人工知能(AIED)分野の長期的な目標です。
マルチモーダルデータと高度なモデルは、複雑なCPS行動を検出する可能性があると主張されていますが、その価値に関する経験的証拠は、いくつかの対照的な証拠が限られたままです。
この研究では、本物の教育環境における78の中学生のCPSサブスキルと指標を診断する際のモデルパフォーマンスを改善するためのマルチモーダルデータの可能性を調査しました。
特に、口頭データからのテキストの埋め込みと、CPS診断のマルチモーダル分類モデルでは、オーディオデータからの音響埋め込みが使用されました。
ユニモーダルトランスベースのモデルとマルチモーダルトランスベースの両方のモデルは、CPSクラスの検出において従来のモデルよりも優れていました。
マルチモダリティを含めることは、従来の単峰性モデルのパフォーマンスを改善しませんでしたが、変圧器ベースのモデルへの統合により、単峰性の変圧器ベースのモデルと比較して、社会的認知CPSクラスの診断のパフォーマンスが向上しました。
結果に基づいて、この論文は、すべてのCPSサブスキルとインジケーターの自動検出において最高のパフォーマンスを達成するために、マルチモダリティと特定のモデリング手法の選択は当然のこととは言えないと主張しています。
むしろ、それらの値は、特定のタイプのCPSインジケーターに限定され、ラベルの複雑さの影響を受け、データセット内のインジケーターの構成に依存します。
自動化されたCPS診断におけるLLMの価値とマルチモダリティを検討する際に必要なニュアンスについて議論し、人間とaiの相補性の必要性を強調し、認証された教育的文脈におけるCPS診断を改善するための関連するモデルアーキテクチャと技術の調査を提案することにより、論文を締めくくります。
要約(オリジナル)
Detecting collaborative and problem-solving behaviours from digital traces to interpret students’ collaborative problem solving (CPS) competency is a long-term goal in the Artificial Intelligence in Education (AIEd) field. Although multimodal data and advanced models are argued to have the potential to detect complex CPS behaviours, empirical evidence on their value remains limited with some contrasting evidence. In this study, we investigated the potential of multimodal data to improve model performance in diagnosing 78 secondary school students’ CPS subskills and indicators in authentic educational settings. In particular, text embeddings from verbal data and acoustic embeddings from audio data were used in a multimodal classification model for CPS diagnosis. Both unimodal and multimodal transformer-based models outperformed traditional models in detecting CPS classes. Although the inclusion of multimodality did not improve the performance of traditional unimodal models, its integration into transformer-based models demonstrated improved performance for diagnosing social-cognitive CPS classes compared to unimodal transformer-based models. Based on the results, the paper argues that multimodality and the selection of a particular modelling technique should not be taken for granted to achieve the best performance in the automated detection of every CPS subskill and indicator. Rather, their value is limited to certain types of CPS indicators, affected by the complexity of the labels, and dependent on the composition of indicators in the dataset. We conclude the paper by discussing the required nuance when considering the value of LLMs and multimodality in automated CPS diagnosis, highlighting the need for human-AI complementarity, and proposing the exploration of relevant model architectures and techniques to improve CPS diagnosis in authentic educational contexts.
arxiv情報
著者 | K. Wong,B. Wu,S. Bulathwela,M. Cukurova |
発行日 | 2025-04-21 13:25:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google