EvalYaks: Instruction Tuning Datasets and LoRA Fine-tuned Models for Automated Scoring of CEFR B2 Speaking Assessment Transcripts

要約

e ラーニング環境での CEFR スピーキング評価の評価を人間の専門家に依存すると、評価の迅速かつ広範囲な実施が制限されるため、スケーラビリティの問題が生じます。
私たちは、会話トランスクリプトから e ラーニング環境での CEFR B2 英語スピーキング評価の評価を自動化することを目指しています。
まず、世界的な状況とインド特有の状況の両方で、CEFR B2 スピーキング試験のさまざまな基準にわたって受験者の成績を採点するための、主要なオープンソースおよび商用大規模言語モデル (LLM) の機能を評価します。
次に、さまざまな評価スコアで評価されたトランスクリプトを含む、専門家によって検証され、CEFR に調整された新しい合成会話データセットを作成します。
さらに、新しい命令調整データセットが、英語語彙プロファイル (CEFR B2 レベルまで) および CEFR-SP WikiAuto データセットから開発されています。
最後に、これらの新しいデータセットを使用して、Mistral Instruct 7B v0.2 のパラメーター効率の高い命令チューニングを実行し、EvalYaks と呼ばれるモデルのファミリーを開発します。
このファミリーの 4 つのモデルは、CEFR B2 スピーキング試験の 4 つのセクションを評価するためのもので、1 つは CEFR レベルの語彙を特定し、レベル固有の語彙を生成するもので、もう 1 つは CEFR レベルのテキストを検出し、レベル固有のテキストを生成するものです。
EvalYaks は、平均許容精度 96%、変動度 0.35 レベルを達成し、次に優れたモデルよりも 3 倍優れたパフォーマンスを示しました。
これは、高品質の CEFR に準拠した評価データで調整された 7B パラメーター LLM 命令が、CEFR B2 の英語スピーキング評価を効果的に評価および採点できることを示しており、スケーラブルで自動化された言語能力評価のための有望なソリューションを提供します。

要約(オリジナル)

Relying on human experts to evaluate CEFR speaking assessments in an e-learning environment creates scalability challenges, as it limits how quickly and widely assessments can be conducted. We aim to automate the evaluation of CEFR B2 English speaking assessments in e-learning environments from conversation transcripts. First, we evaluate the capability of leading open source and commercial Large Language Models (LLMs) to score a candidate’s performance across various criteria in the CEFR B2 speaking exam in both global and India-specific contexts. Next, we create a new expert-validated, CEFR-aligned synthetic conversational dataset with transcripts that are rated at different assessment scores. In addition, new instruction-tuned datasets are developed from the English Vocabulary Profile (up to CEFR B2 level) and the CEFR-SP WikiAuto datasets. Finally, using these new datasets, we perform parameter efficient instruction tuning of Mistral Instruct 7B v0.2 to develop a family of models called EvalYaks. Four models in this family are for assessing the four sections of the CEFR B2 speaking exam, one for identifying the CEFR level of vocabulary and generating level-specific vocabulary, and another for detecting the CEFR level of text and generating level-specific text. EvalYaks achieved an average acceptable accuracy of 96%, a degree of variation of 0.35 levels, and performed 3 times better than the next best model. This demonstrates that a 7B parameter LLM instruction tuned with high-quality CEFR-aligned assessment data can effectively evaluate and score CEFR B2 English speaking assessments, offering a promising solution for scalable, automated language proficiency evaluation.

arxiv情報

著者 Nicy Scaria,Silvester John Joseph Kennedy,Thomas Latinovich,Deepak Subramani
発行日 2024-08-22 08:57:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク