要約
自動スコアリング(AS)システムは、L2ライティングの評価にますます使用されていますが、コンストラクトの妥当性のために継続的な改良が必要です。
以前の研究では、語彙バンドル(LBS) – 特定の周波数基準を満たす再発性マルチワードシーケンス – が評価に情報を提供することを提案しましたが、モデルへの経験的統合はさらなる調査が必要です。
この研究では、LB周波数の特徴をTOEFL独立執筆タスクのASモデルに組み込むことの影響をテストしました。
ETEFL11コーパスからサンプルされたサブコルパス(n = 1,225エッセイ、9 L1S)を分析し、ETS訓練を受けた評価者(低、中、高)、3〜9ワードLBSによって採点され、非プロムプトタイプから迅速な特異的を区別しました。
確立された言語特徴(メカニック、凝集、洗練度など)を使用したベースラインサポートベクターマシン(SVM)スコアモデルを、3つの凝集LB周波数機能(合計プロンプト、総非営利、全体的な合計)を含む拡張モデルと比較しました。
結果は、一般的に小さいが、LB頻度(特に非普及バンドル)と習熟度(p <.05)の間の関係があるが、有意な有意なことを明らかにしました。
平均頻度では、より低い習熟度エッセイが全体でより多くのLBを使用したことを示唆しました。
重大なことに、LB強化モデルは、人間の評価者との一致を改善しました(第四紀のコーエンのカッパ +2.05%、全体的なコーエンのカッパ +5.63%)。
これらの調査結果は、積分LB周波数を統合すると、特に開発中のL2ライターを区別するために、より言語的に情報に基づいた正確なシステムを開発する可能性があることを示しています。
要約(オリジナル)
Automated scoring (AS) systems are increasingly used for evaluating L2 writing, but require ongoing refinement for construct validity. While prior work suggested lexical bundles (LBs) – recurrent multi-word sequences satisfying certain frequency criteria – could inform assessment, their empirical integration into AS models needs further investigation. This study tested the impact of incorporating LB frequency features into an AS model for TOEFL independent writing tasks. Analyzing a sampled subcorpus (N=1,225 essays, 9 L1s) from the TOEFL11 corpus, scored by ETS-trained raters (Low, Medium, High), 3- to 9-word LBs were extracted, distinguishing prompt-specific from non-prompt types. A baseline Support Vector Machine (SVM) scoring model using established linguistic features (e.g., mechanics, cohesion, sophistication) was compared against an extended model including three aggregate LB frequency features (total prompt, total non-prompt, overall total). Results revealed significant, though generally small-effect, relationships between LB frequency (especially non-prompt bundles) and proficiency (p < .05). Mean frequencies suggested lower proficiency essays used more LBs overall. Critically, the LB-enhanced model improved agreement with human raters (Quadratic Cohen's Kappa +2.05%, overall Cohen's Kappa +5.63%), with notable gains for low (+10.1% exact agreement) and medium (+14.3% Cohen's Kappa) proficiency essays. These findings demonstrate that integrating aggregate LB frequency offers potential for developing more linguistically informed and accurate AS systems, particularly for differentiating developing L2 writers.
arxiv情報
著者 | Burak Senel |
発行日 | 2025-04-11 13:47:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google