Multilingual Performance Biases of Large Language Models in Education

要約

大規模な言語モデル(LLM)は、教育環境でますます採用されています。
現在のLLMは主に英語中心のままですが、これらのアプリケーションは英語を超えて拡大しています。
この作業では、英語以外の言語での教育環境での使用が保証されているかどうかを確認します。
英語に加えて、6つの言語(ヒンディー語、アラビア語、ペルシア語、テルグ語、ウクライナ語、チェック)で、学生の誤解を特定し、ターゲットを絞ったフィードバック、インタラクティブな家庭教師、グレーディング翻訳を識別し、ターゲットを絞ったフィードバックを提供し、ターゲットを絞ったフィードバックを提供し、ターゲットを絞ったフィードバックを提供します。
これらのタスクのパフォーマンスは、トレーニングデータで表される言語の量に多少対応しており、リソースの低い言語はタスクのパフォーマンスが低いことがわかります。
モデルはほとんどの言語でかなりうまく機能しますが、英語からの頻繁なパフォーマンス低下は重要です。
したがって、開業医は、展開前に教育タスクのためにLLMがターゲット言語でうまく機能することを最初に確認することをお勧めします。

要約(オリジナル)

Large language models (LLMs) are increasingly being adopted in educational settings. These applications expand beyond English, though current LLMs remain primarily English-centric. In this work, we ascertain if their use in education settings in non-English languages is warranted. We evaluated the performance of popular LLMs on four educational tasks: identifying student misconceptions, providing targeted feedback, interactive tutoring, and grading translations in six languages (Hindi, Arabic, Farsi, Telugu, Ukrainian, Czech) in addition to English. We find that the performance on these tasks somewhat corresponds to the amount of language represented in training data, with lower-resource languages having poorer task performance. Although the models perform reasonably well in most languages, the frequent performance drop from English is significant. Thus, we recommend that practitioners first verify that the LLM works well in the target language for their educational task before deployment.

arxiv情報

著者 Vansh Gupta,Sankalan Pal Chowdhury,Vilém Zouhar,Donya Rooein,Mrinmaya Sachan
発行日 2025-04-24 16:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク