Controlling Difficulty of Generated Text for AI-Assisted Language Learning

要約

大規模な言語モデル(LLMS)との会話を実践することは、従来の対面学習に有望な代替手段を提示します。
ただし、ほとんどのLLMは、ネイティブに近いレベルの複雑さでテキストを生成し、初心者の学習者に適していません(CEFR:A1-A2)。
このホワイトペーパーでは、制御可能な生成技術、特にモデルの微調整を必要としないモジュラー方法が、絶対初心者をよりよくサポートするためにLLM出力を適応できるかどうかを調査します。
自動メトリックと、日本語の大学レベルの学習者とのユーザー調査の両方を通じて、これらの方法を評価します。
我々の調査結果は、促しだけで出力の難易度を制御できない一方で、将来の判別器(Yang and Klein、2021)の使用により、出力の理解可能性が大幅に向上することが示されています(40.4 \%から84.3 \%)。
さらに、発話ごとの理解できないトークンの割合を定量化し、人間の判断と強く相関する、新しいトークンレベルの評価メトリック、トークンミスレート(TMR)を導入します。
AIアシスト言語学習の将来の研究をサポートするために、コード、モデル、注釈ツール、およびデータセットをリリースします。

要約(オリジナル)

Practicing conversations with large language models (LLMs) presents a promising alternative to traditional in-person language learning. However, most LLMs generate text at a near-native level of complexity, making them ill-suited for beginner learners (CEFR: A1-A2). In this paper, we investigate whether controllable generation techniques — specifically modular methods that do not require model fine-tuning — can adapt LLM outputs to better support absolute beginners. We evaluate these methods through both automatic metrics and a user study with university-level learners of Japanese. Our findings show that while prompting alone fails to control output difficulty, the use of future discriminators (Yang and Klein, 2021) significantly improves output comprehensibility (from 40.4\% to 84.3\%). We further introduce a novel token-level evaluation metric, Token Miss Rate (TMR), that quantifies the proportion of incomprehensible tokens per utterance and correlates strongly with human judgments. To support future research in AI-assisted language learning, we release our code, models, annotation tools, and dataset.

arxiv情報

著者 Meiqing Jin,Liam Dugan,Chris Callison-Burch
発行日 2025-06-04 15:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, I.2.7 パーマリンク