要約
自動質問生成は、エンゲージメント、教育的価値、批判的思考を刺激する能力などの要因を考慮することにより、質問の質を評価することを伴う重要なタスクです。
これらの側面には、自動化されたシステムが現在欠けている人間のような理解と判断が必要です。
ただし、人間の評価は、生成された質問の大規模なサンプルでは費用がかかり、非現実的です。
したがって、大規模な言語モデル(LLM)を活用して自動化された質問生成システムによって生成された質問の評価プロセスを自動化する新しいシステム、ミラー(最適化された評価のマルチLITのレビューと応答)を提案します。
GPT-4、Gemini、Llama2-70bなど、いくつかの最先端のLLMを実験しました。
人間の評価メトリックのスコア、すなわち、関連性、適切性、斬新、複雑さ、文法性は、ミラーと呼ばれるフィードバックベースのアプローチを使用すると改善され、人間のベースラインスコアに近づく傾向があることが観察されました。
さらに、Pearsonのフィードバックベースのアプローチを使用すると、GPT-4と人間の専門家の間のピアソンの相関係数が改善されたことが観察されました。
エラー分析は、提案されたアプローチであるミラーが、関連性と適切性を改善するのに大幅に役立つことを示しています。
要約(オリジナル)
Automatic question generation is a critical task that involves evaluating question quality by considering factors such as engagement, pedagogical value, and the ability to stimulate critical thinking. These aspects require human-like understanding and judgment, which automated systems currently lack. However, human evaluations are costly and impractical for large-scale samples of generated questions. Therefore, we propose a novel system, MIRROR (Multi-LLM Iterative Review and Response for Optimized Rating), which leverages large language models (LLMs) to automate the evaluation process for questions generated by automated question generation systems. We experimented with several state-of-the-art LLMs, such as GPT-4, Gemini, and Llama2-70b. We observed that the scores of human evaluation metrics, namely relevance, appropriateness, novelty, complexity, and grammaticality, improved when using the feedback-based approach called MIRROR, tending to be closer to the human baseline scores. Furthermore, we observed that Pearson’s correlation coefficient between GPT-4 and human experts improved when using our proposed feedback-based approach, MIRROR, compared to direct prompting for evaluation. Error analysis shows that our proposed approach, MIRROR, significantly helps to improve relevance and appropriateness.
arxiv情報
著者 | Aniket Deroy,Subhankar Maity,Sudeshna Sarkar |
発行日 | 2025-03-05 16:16:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google