Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts

要約

対話ベースの教育などの教育アプリケーションに大規模言語モデル (LLM) を使用することが注目されています。
ただし、効果的な指導を行うには、教師が内容や説明の難しさを生徒の教育レベルに合わせる必要があります。
現在、最高の LLM でさえ、これをうまく行うのに苦労しています。
この適応タスクで LLM を改善したい場合は、適応の成功を確実に測定できる必要があります。
ただし、Flesch-Kincaid Reading Ease スコアなど、テキストの難易度に関する現在の静的指標は粗雑で脆弱であることが知られています。
したがって、テキストの難易度に関するプロンプトベースの新しい指標セットを導入し、評価します。
ユーザー調査に基づいて、LLM の入力としてプロンプトベースのメトリクスを作成します。
これらは、LLM の一般的な言語理解機能を活用して、静的メトリクスよりも抽象的で複雑な機能をキャプチャします。
回帰実験では、プロンプトベースのメトリクスを追加すると、静的メトリクスのみよりもテキストの難易度分類が大幅に向上することが示されています。
私たちの結果は、LLM を使用してさまざまな教育レベルへのテキストの適応を評価できる可能性を示しています。

要約(オリジナル)

Using large language models (LLMs) for educational applications like dialogue-based teaching is a hot topic. Effective teaching, however, requires teachers to adapt the difficulty of content and explanations to the education level of their students. Even the best LLMs today struggle to do this well. If we want to improve LLMs on this adaptation task, we need to be able to measure adaptation success reliably. However, current Static metrics for text difficulty, like the Flesch-Kincaid Reading Ease score, are known to be crude and brittle. We, therefore, introduce and evaluate a new set of Prompt-based metrics for text difficulty. Based on a user study, we create Prompt-based metrics as inputs for LLMs. They leverage LLM’s general language understanding capabilities to capture more abstract and complex features than Static metrics. Regression experiments show that adding our Prompt-based metrics significantly improves text difficulty classification over Static metrics alone. Our results demonstrate the promise of using LLMs to evaluate text adaptation to different education levels.

arxiv情報

著者 Donya Rooein,Paul Rottger,Anastassia Shaitarova,Dirk Hovy
発行日 2024-05-15 16:22:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク