LC-Score: Reference-less estimation of Text Comprehension Difficulty

要約

デジタル時代には、書かれたテキストを読んで理解できることが重要です。
しかし、調査によると、人口の大部分が理解力の問題を経験しています。
これに関連して、視聴者のテキスト理解を向上させるために、アクセシビリティに関するさらなる取り組みが必要です。
しかし、ライターは、わかりやすいコンテンツを作成するための支援や奨励を受けることはほとんどありません。
さらに、自動テキスト簡略化 (ATS) モデルの開発には、理解の難しさを正確に推定するための指標が不足しているという問題があります。\textsc{LC-Score} という、参照なしでフランス語テキストの文章理解の指標をトレーニングするための簡単なアプローチ、つまり、理解の難易度を予測するシンプルなアプローチを紹介します。
特定のテキストが $[0, 100]$ スケールにあることを理解するには。
このスケールでの私たちの目的は、英語の平易な言語と密接に関連するフランスの取り組みである \textit{Langage Clair} (LC、\textit{Clear Language}) ガイドラインにテキストがどの程度適合しているかを定量的に把握することです。
私たちは 2 つのアプローチを検討します: (i) 統計モデルのトレーニングに使用される言語的動機の指標の使用、および (ii) 事前トレーニングされた言語モデルを活用したテキストからの直接のニューラル学習。
分類タスクとして理解難易度トレーニング用の簡単な代理タスクを導入します。
モデルを評価するために、2 つの異なるヒューマン アノテーション実験を実行しました。その結果、どちらのアプローチ (インジケーター ベースとニューラル) も、FKGL や SAMSA などの一般的に使用される可読性と理解のメトリクスよりも優れていることがわかりました。

要約(オリジナル)

Being able to read and understand written text is critical in a digital era. However, studies shows that a large fraction of the population experiences comprehension issues. In this context, further initiatives in accessibility are required to improve the audience text comprehension. However, writers are hardly assisted nor encouraged to produce easy-to-understand content. Moreover, Automatic Text Simplification (ATS) model development suffers from the lack of metric to accurately estimate comprehension difficulty We present \textsc{LC-Score}, a simple approach for training text comprehension metric for any French text without reference \ie predicting how easy to understand a given text is on a $[0, 100]$ scale. Our objective with this scale is to quantitatively capture the extend to which a text suits to the \textit{Langage Clair} (LC, \textit{Clear Language}) guidelines, a French initiative closely related to English Plain Language. We explore two approaches: (i) using linguistically motivated indicators used to train statistical models, and (ii) neural learning directly from text leveraging pre-trained language models. We introduce a simple proxy task for comprehension difficulty training as a classification task. To evaluate our models, we run two distinct human annotation experiments, and find that both approaches (indicator based and neural) outperforms commonly used readability and comprehension metrics such as FKGL and SAMSA.

arxiv情報

著者 Paul Tardy,Charlotte Roze,Paul Poupet
発行日 2023-10-04 11:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク