要約
試験業界では、試験問題を評価ブループリントに概要が示されている指定されたコンテンツ領域に合わせるために、項目を正確に分類することが極めて重要です。
従来の方法では、手間がかかりエラーが発生しやすい手動分類が必要になるか、大量のトレーニング データを必要とする機械学習を利用するため、モデルのアンダーフィットまたはオーバーフィットの問題が発生することがよくあります。
この研究では、ゼロショットおよび少数ショットの生成事前学習変換器 (GPT) 分類器を階層的な項目分類に採用し、トレーニング データの必要性を最小限に抑え、代わりに人間に似た言語記述を活用してカテゴリを定義する新しいアプローチを明らかにします。
構造化された Python 辞書を通じて、試験ブループリントの階層的な性質がシームレスにナビゲートされ、複数のレベルにわたる項目の段階的な分類が可能になります。
人工データを使用した最初のシミュレーションでは、この方法の有効性が実証され、F1 スコアで測定された平均精度 92.91% が達成されました。
この手法は、米国家庭医学委員会(ABFM)が実施した2022年の研修中試験(ITE)の実際の検査項目にさらに適用され、新たに策定された青写真に従って200項目を15分で迅速に再分類しました。これは従来は可能であった作業です。
編集者と医師の間で数日間にわたって話し合います。
この革新的なアプローチは、分類時間を大幅に短縮するだけでなく、一貫した原則に基づいた分類を保証し、人間による偏見や不一致を最小限に抑えます。
定義を調整することで分類を改良できるため、堅牢性と持続可能性が高まります。
要約(オリジナル)
In testing industry, precise item categorization is pivotal to align exam questions with the designated content domains outlined in the assessment blueprint. Traditional methods either entail manual classification, which is laborious and error-prone, or utilize machine learning requiring extensive training data, often leading to model underfit or overfit issues. This study unveils a novel approach employing the zero-shot and few-shot Generative Pretrained Transformer (GPT) classifier for hierarchical item categorization, minimizing the necessity for training data, and instead, leveraging human-like language descriptions to define categories. Through a structured python dictionary, the hierarchical nature of examination blueprints is navigated seamlessly, allowing for a tiered classification of items across multiple levels. An initial simulation with artificial data demonstrates the efficacy of this method, achieving an average accuracy of 92.91% measured by the F1 score. This method was further applied to real exam items from the 2022 In-Training Examination (ITE) conducted by the American Board of Family Medicine (ABFM), reclassifying 200 items according to a newly formulated blueprint swiftly in 15 minutes, a task that traditionally could span several days among editors and physicians. This innovative approach not only drastically cuts down classification time but also ensures a consistent, principle-driven categorization, minimizing human biases and discrepancies. The ability to refine classifications by adjusting definitions adds to its robustness and sustainability.
arxiv情報
著者 | Ting Wang,Keith Stelter,Jenn Floyd,Thomas O’Neill,Nathaniel Hendrix,Andrew Bazemore,Kevin Rode,Warren Newton |
発行日 | 2023-12-06 15:51:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google