要約
テキストに未知の単語が出現すると、読解力が大幅に低下します。
特定のターゲット集団のアクセシビリティを向上させるために、計算モデリングを適用して、テキスト内の複雑な単語を識別し、それらをより単純な代替単語に置き換えています。
この論文では、英語のデータで実行された作業に焦点を当てた語彙の複雑さ予測への計算アプローチの概要を示します。
従来の機械学習分類器 (SVM、ロジスティック回帰など) やディープ ニューラル ネットワーク、さらには心理言語学の文献や単語の頻度、単語の長さ、および
他の多く。
さらに、このトピックで作成された過去のコンテストや利用可能なデータセットを読者に紹介します。
最後に、英語以外の言語に関する関連研究とともに、読みやすさやテキストの単純化など、語彙の複雑さの予測のアプリケーションに関する簡単なセクションを含めます。
要約(オリジナル)
The occurrence of unknown words in texts significantly hinders reading comprehension. To improve accessibility for specific target populations, computational modelling has been applied to identify complex words in texts and substitute them for simpler alternatives. In this paper, we present an overview of computational approaches to lexical complexity prediction focusing on the work carried out on English data. We survey relevant approaches to this problem which include traditional machine learning classifiers (e.g. SVMs, logistic regression) and deep neural networks as well as a variety of features, such as those inspired by literature in psycholinguistics as well as word frequency, word length, and many others. Furthermore, we introduce readers to past competitions and available datasets created on this topic. Finally, we include brief sections on applications of lexical complexity prediction, such as readability and text simplification, together with related studies on languages other than English.
arxiv情報
著者 | Kai North,Marcos Zampieri,Matthew Shardlow |
発行日 | 2023-03-08 19:35:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google