要約
自動質問生成 (QG) は、AI と NLP、特にインテリジェントな個別指導、対話システム、事実確認において不可欠です。
米国医師免許試験 (USMLE) などの専門試験の多肢選択問題 (MCQG) を生成することは特に困難であり、高品質な問題を作成するには専門知識と複雑なマルチホップ推論が必要です。
しかし、GPT-4 のような現在の大規模言語モデル (LLM) は、古い知識、幻覚の問題、即時的な感度のため、専門的な MCQG に苦戦しており、満足のいく品質と難易度が得られません。
これらの課題に対処するために、医療ケースを高品質の USMLE スタイルの質問に変換するための LLM 自己洗練ベース (批判と修正) フレームワークである MCQG-SRefine を提案します。
MCQG-SRefine は、専門家主導のプロンプト エンジニアリングと反復的な自己批判および自己修正フィードバックを統合することにより、質問の質と難易度の両方に関する人間の専門家の満足度を大幅に向上させます。
さらに、複雑でコストのかかる専門家による評価プロセスを置き換えるために、LLM-as-Judge ベースの自動評価基準を導入し、信頼性の高い専門家と連携した評価を保証します。
要約(オリジナル)
Automatic question generation (QG) is essential for AI and NLP, particularly in intelligent tutoring, dialogue systems, and fact verification. Generating multiple-choice questions (MCQG) for professional exams, like the United States Medical Licensing Examination (USMLE), is particularly challenging, requiring domain expertise and complex multi-hop reasoning for high-quality questions. However, current large language models (LLMs) like GPT-4 struggle with professional MCQG due to outdated knowledge, hallucination issues, and prompt sensitivity, resulting in unsatisfactory quality and difficulty. To address these challenges, we propose MCQG-SRefine, an LLM self-refine-based (Critique and Correction) framework for converting medical cases into high-quality USMLE-style questions. By integrating expert-driven prompt engineering with iterative self-critique and self-correction feedback, MCQG-SRefine significantly enhances human expert satisfaction regarding both the quality and difficulty of the questions. Furthermore, we introduce an LLM-as-Judge-based automatic metric to replace the complex and costly expert evaluation process, ensuring reliable and expert-aligned assessments.
arxiv情報
著者 | Zonghai Yao,Aditya Parashar,Huixue Zhou,Won Seok Jang,Feiyun Ouyang,Zhichao Yang,Hong Yu |
発行日 | 2024-10-18 16:42:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google