Flesch or Fumble? Evaluating Readability Standard Alignment of Instruction-Tuned Language Models

要約

Flesch Kincaid Grade Level (FKGL) や欧州言語共通参照枠 (CEFR) などの可読性の指標や基準は、教師や教育者が教育資料を教室で使用する前にその複雑さを適切に評価できるようにするために存在します。
この研究では、オープンソースおよびクローズドソースの指導に合わせて調整された言語モデルの多様なセットを選択し、テキストの読みやすさを制御する標準的なガイド付きプロンプトを使用して教師が実行する$-$ストーリーの完成文の作成と物語の単純化$-$タスクにおけるそれらのパフォーマンスを調査します。
私たちの広範な調査結果は、有望な結果を示している BLOOMZ や FlanT5$-$ などの他のオープンソース モデルと比較して、ChatGPT のような世界的に認知されているモデルがいかに効果的ではないとみなされ、これらの生成タスクに対してより洗練されたプロンプトを必要とする可能性があるかを実証する証拠を提供します。

要約(オリジナル)

Readability metrics and standards such as Flesch Kincaid Grade Level (FKGL) and the Common European Framework of Reference for Languages (CEFR) exist to guide teachers and educators to properly assess the complexity of educational materials before administering them for classroom use. In this study, we select a diverse set of open and closed-source instruction-tuned language models and investigate their performances in writing story completions and simplifying narratives$-$tasks that teachers perform$-$using standard-guided prompts controlling text readability. Our extensive findings provide empirical proof of how globally recognized models like ChatGPT may be considered less effective and may require more refined prompts for these generative tasks compared to other open-sourced models such as BLOOMZ and FlanT5$-$which have shown promising results.

arxiv情報

著者 Joseph Marvin Imperial,Harish Tayyar Madabushi
発行日 2023-09-11 13:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク