Using Letter Positional Probabilities to Assess Word Complexity

要約

単語の複雑さはさまざまな方法で定義されます。
心理言語学的、形態学的、語彙的な代用表現がよく使用されます。
人間による評価も使用されます。
ここでの問題は、これらのプロキシは複雑さを直接測定せず、人間の評価は主観的なバイアスの影響を受けることです。
この研究では、単純な単語と複雑な単語のサンプルを使用することで、ある種の「潜在的な複雑さ」を近似できると主張します。
小学校の絵本からの「簡単な」単語のサンプルと、高校や学術環境からの「複雑な」単語のサンプルを使用します。
これらのクラス間の違いを分析するために、文字位置確率 (LPP) を調べます。
LPP に基づいて、単純な単語と複雑な単語の間に強い統計的関連性があることがわかります。
たとえば、単純な単語は、w、b、s、h、g、k、j、t y または f で始まる可能性が大幅に (p<.001) 高く、複雑な単語は、 i、a、e、r、v、u、または d で始まります。 後続の文字位置についても同様の強い関連が見られ、最初の 6 位置の 84 個の文字位置変数が p<.001 レベルで有意です。 次に、LPP を変数として使用して、2 つのクラスを 83% の精度で分類できる分類器を作成します。 両方のデータセットに共通する最初の 6 つの位置で 66 個の LPP が有意 (p<.001) である 2 番目のデータセットを使用して、これらの結果をテストします。 これら 66 個の変数を使用して、70% の精度で 3 番目のデータセットを分類できる分類器を作成します。 最後に、最初の 3 つの個別のデータセットに基づいて構築された 3 つの分類子によって生成された極端にスコアの高い単語と低い単語を組み合わせて 4 番目のサンプルを作成し、このサンプルを使用して精度 97% の分類子を構築します。 これを使用して、ESL プログラムの 4 つのレベルの英単語グループを採点します。

要約(オリジナル)

Word complexity is defined in a number of different ways. Psycholinguistic, morphological and lexical proxies are often used. Human ratings are also used. The problem here is that these proxies do not measure complexity directly, and human ratings are subject to subjective bias. In this study we contend that some form of ‘latent complexity’ can be approximated by using samples of simple and complex words. We use a sample of ‘simple’ words from primary school picture books and a sample of ‘complex’ words from high school and academic settings. In order to analyse the differences between these classes, we look at the letter positional probabilities (LPPs). We find a strong statistical association between simple and complex words on the basis of LPPs. For example, simple words are significantly (p<.001) more likely to start with w, b, s, h, g,k, j,t y or f, while complex words are significantly (p<.001) more likely to start with i, a, e, r, v, u or d. We find similar strong associations for subsequent letter positions, with 84 letter-position variables in the first 6 positions being significant at the p<.001 level. We then use LPPs as variables in creating a classifier which can classify the two classes with an 83% accuracy. We test these findings using a second data set, with 66 LPPs significant (p<.001) in the first 6 positions common to both datasets. We use these 66 variables to create a classifier that is able to classify a third dataset with an accuracy of 70%. Finally, we create a fourth sample by combining the extreme high and low scoring words generated by three classifiers built on the first three separate datasets and use this sample to build a classifier which has an accuracy of 97%. We use this to score the four levels of English word groups from an ESL program.

arxiv情報

著者 Michael Dalvean
発行日 2024-04-11 14:06:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク