‘Did my figure do justice to the answer?’ : Towards Multimodal Short Answer Grading with Feedback (MMSAF)

要約

個別のフィードバックは、生徒の学習プロセスにおいて重要な役割を果たします。
既存のシステムは MCQ ベースの評価に対するフィードバックを提供することに長けていますが、この取り組みは主観的で自由回答型の質問により重点を置いており、これはフィードバックによる自動短答採点 (ASAG) の問題に似ています。
さらに、従来の ASAG フィードバック問題に代わって、フィードバック付きマルチモーダル短答採点 (MMSAF) 問題を導入し、生徒の解答と参考解答に画像が含まれる可能性があるシナリオに対処します。
さらに、2197 個のデータ ポイントを含む MMSAF データセットと、そのようなデータ セットを生成するための自動フレームワークを紹介します。
このデータセットに対する既存の LLM の評価では、正確性レベル ラベルで 55\%、画像関連性ラベルで 75\% の全体的な精度が達成され、専門家によって評価された LLM 生成フィードバックの正確性レベルで 5 点満点中 4.27 のスコアが得られました。
専門家によると、Pixtral はすべての指標のうち 4 を超える評価を獲得しており、人間の判断により一致しており、学生を支援するのに最適なソリューションであることが示されています。

要約(オリジナル)

Personalized feedback plays a vital role in a student’s learning process. While existing systems are adept at providing feedback over MCQ-based evaluation, this work focuses more on subjective and open-ended questions, which is similar to the problem of Automatic Short Answer Grading (ASAG) with feedback. Additionally, we introduce the Multimodal Short Answer grading with Feedback (MMSAF) problem over the traditional ASAG feedback problem to address the scenario where the student answer and reference answer might contain images. Moreover, we introduce the MMSAF dataset with 2197 data points along with an automated framework for generating such data sets. Our evaluations on existing LLMs over this dataset achieved an overall accuracy of 55\% on Level of Correctness labels, 75\% on Image Relevance labels and a score of 4.27 out of 5 in correctness level of LLM generated feedback as rated by experts. As per experts, Pixtral achieved a rating of above 4 out of all metrics, indicating that it is more aligned to human judgement, and that it is the best solution for assisting students.

arxiv情報

著者 Pritam Sil,Bhaskaran Raman,Pushpak Bhattacharyya
発行日 2024-12-27 17:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク