Using Letter Positional Probabilities to Assess Word Complexity

要約

単語の複雑さはさまざまな方法で定義されます。
心理言語学的、形態学的、語彙的な代用表現がよく使用されます。
人間による評価も使用されます。
ここでの問題は、これらのプロキシは複雑さを直接測定せず、人間による評価は主観的なバイアスの影響を受けやすいことです。
この研究では、単純な単語と複雑な単語のサンプルを使用することで、ある種の「潜在的な複雑さ」を近似できると主張します。
小学校の絵本からの「簡単な」単語のサンプルと、高校や学術環境からの「複雑な」単語のサンプルを使用します。
これらのクラス間の違いを分析するために、文字位置確率 (LPP) を調べます。
いくつかの LPP と複雑さとの間には強い統計的関連性が見られます。
たとえば、単純な単語は w、b、s、h、g、k、j、t、y または f で始まる可能性が大幅に (p<.001) 高く、複雑な単語は大幅に (p<.001) 高くなります。 i、a、e、r、v、u、または d で始まる可能性があります。 後続の文字位置についても同様の強い関連が見られ、最初の 6 位置の 84 個の文字位置変数が p<.001 レベルで有意です。 次に、LPP を変数として使用して、2 つのクラスを 83% の精度で分類できる分類器を作成します。 両方のデータセットに共通する最初の 6 位で 66 個の LPP が有意 (p<.001) である 2 番目のデータセットを使用して、これらの結果をテストします。 これら 66 個の変数を使用して、3 番目のデータセットを 70% の精度で分類できる分類器を作成します。 最後に、最初の 3 つの個別のデータセットに基づいて構築された 3 つの分類子によって生成された極端にスコアの高い単語と低い単語を組み合わせて 4 番目のサンプルを作成し、このサンプルを使用して精度 97% の分類子を構築します。 これを使用して、ESL プログラムの 4 つのレベルの英単語グループを採点します。

要約(オリジナル)

Word complexity is defined in a number of different ways. Psycholinguistic, morphological and lexical proxies are often used. Human ratings are also used. The problem here is that these proxies do not measure complexity directly, and human ratings are susceptible to subjective bias. In this study we contend that some form of ‘latent complexity’ can be approximated by using samples of simple and complex words. We use a sample of ‘simple’ words from primary school picture books and a sample of ‘complex’ words from high school and academic settings. In order to analyse the differences between these classes, we look at the letter positional probabilities (LPPs). We find strong statistical associations between several LPPs and complexity. For example, simple words are significantly (p<.001) more likely to start with w, b, s, h, g, k, j, t, y or f, while complex words are significantly (p<.001) more likely to start with i, a, e, r, v, u or d. We find similar strong associations for subsequent letter positions, with 84 letter-position variables in the first 6 positions being significant at the p<.001 level. We then use LPPs as variables in creating a classifier which can classify the two classes with an 83% accuracy. We test these findings using a second data set, with 66 LPPs significant (p<.001) in the first 6 positions common to both datasets. We use these 66 variables to create a classifier that is able to classify a third dataset with an accuracy of 70%. Finally, we create a fourth sample by combining the extreme high and low scoring words generated by three classifiers built on the first three separate datasets and use this sample to build a classifier which has an accuracy of 97%. We use this to score the four levels of English word groups from an ESL program.

arxiv情報

著者 Michael Dalvean
発行日 2024-08-05 13:12:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク