要約
多肢選択質問応答 (MCQA) は、医療、法律、教育など、多くの実世界のアプリケーションで重要な問題です。
MCQA データセットの構築コストが高いため、この分野では少数ショット学習が極めて重要です。
大規模言語モデル (LLM) は少数ショット学習を可能にしますが、現実世界のシナリオに直接適用することは、計算コストが高いために妨げられることがよくあります。
この課題に対処するために、データの生成とスコアリングに LLM を使用する、シンプルかつ効果的なアプローチを提案します。
私たちのアプローチでは、LLM を利用して質問と選択肢を含む MCQA データを作成し、生成された選択肢に確率スコアを割り当てます。
次に、生成されたデータと LLM によって割り当てられたスコアを使用して、蒸留損失を活用することで、より小型で効率的なエンコーダー専用モデルである DeBERTa-v3 ベースを微調整します。
Massive Multitask Language Understanding (MMLU) ベンチマークに関する広範な実験により、私たちの手法により精度が 28.9% から 39.3% に向上し、5 ショットのサンプルで直接微調整されたベースラインと比較して 10% 以上の向上が示されたことが実証されました。
これは、少数ショット MCQA に対する LLM 主導のデータ生成と知識の蒸留の有効性を示しています。
要約(オリジナル)
Multiple Choice Question Answering (MCQA) is an important problem with numerous real-world applications, such as medicine, law, and education. The high cost of building MCQA datasets makes few-shot learning pivotal in this domain. While Large Language Models (LLMs) can enable few-shot learning, their direct application in real-world scenarios is often hindered by their high computational cost. To address this challenge, we propose a simple yet effective approach that uses LLMs for data generation and scoring. Our approach utilizes LLMs to create MCQA data which contains questions and choices, and to assign probability scores to the generated choices. We then use the generated data and LLM-assigned scores to finetune a smaller and more efficient encoder-only model, DeBERTa-v3-base by leveraging distillation loss. Extensive experiments on the Massive Multitask Language Understanding (MMLU) benchmark demonstrate that our method improves accuracy from 28.9% to 39.3%, representing a gain of over 10% compared to a baseline finetuned directly on 5-shot examples. This shows the effectiveness of LLM-driven data generation and knowledge distillation for few-shot MCQA.
arxiv情報
著者 | Patrick Sutanto,Joan Santoso,Esther Irawati Setiawan,Aji Prasetya Wibawa |
発行日 | 2024-12-30 16:45:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google