要約
本研究では、大規模言語モデル(LLM)による動的評価(DA)のスケールアップの可能性を調査する。このような調査を容易にするために、我々はまずDynaWriteを開発した。DynaWriteは、複数のLLMをサポートし、英語学習者に動的フィードバックを生成する、モジュール式のマイクロサービスベースの文法チュータリングアプリケーションである。21のLLMの初期テストにより、GPT-4oとニューラルチャットが、言語学習教室におけるDAをスケールアップする可能性が最も高いことが明らかになった。これら2つの候補をさらにテストした結果、両モデルとも、ユーザーの文中の文法的誤りを正確に識別する能力において、同様の性能を示した。しかし、GPT-4oは、明確で一貫性があり、徐々に明示的なヒントを生成することで、そのDAの質において常にニューラルチャットを上回った。リアルタイムの応答性とシステムの安定性も詳細な性能テストにより確認され、GPT-4oは十分な速度と安定性を示した。本研究は、LLMがダイナミックアセスメントのスケールアップに利用できることを示し、その結果、従来の教師-学習者の設定よりも大規模なグループにダイナミックアセスメントを提供することが可能になることを示している。
要約(オリジナル)
This study investigates the potential for Large Language Models (LLMs) to scale-up Dynamic Assessment (DA). To facilitate such an investigation, we first developed DynaWrite-a modular, microservices-based grammatical tutoring application which supports multiple LLMs to generate dynamic feedback to learners of English. Initial testing of 21 LLMs, revealed GPT-4o and neural chat to have the most potential to scale-up DA in the language learning classroom. Further testing of these two candidates found both models performed similarly in their ability to accurately identify grammatical errors in user sentences. However, GPT-4o consistently outperformed neural chat in the quality of its DA by generating clear, consistent, and progressively explicit hints. Real-time responsiveness and system stability were also confirmed through detailed performance testing, with GPT-4o exhibiting sufficient speed and stability. This study shows that LLMs can be used to scale-up dynamic assessment and thus enable dynamic assessment to be delivered to larger groups than possible in traditional teacher-learner settings.
arxiv情報
| 著者 | Timur Jaganov,John Blake,Julián Villegas,Nicholas Carr |
| 発行日 | 2025-05-02 00:19:50+00:00 |
| arxivサイト | arxiv_id(pdf) |