Measuring Lexical Diversity in Texts: The Twofold Length Problem

要約

語彙の多様性の推定に対するテキストの長さの影響は、1 世紀以上にわたって科学界の注目を集めてきました。
数多くの指標が提案され、それを評価するための研究が数多く行われていますが、依然として課題は残っています。
この方法論的レビューは、言語学習研究で最も一般的に使用される指標だけでなく、長さの問題自体、および提案された解決策を評価するための方法論についても批判的な分析を提供します。
英語学習者のテキストの 3 つのデータセットの分析により、確率的アプローチまたはアルゴリズム的アプローチを使用してすべてのテキストを同じ長さに短縮するインデックスが長さの依存性の問題を解決することが明らかになりました。
しかし、これらのインデックスはすべて、2 番目の問題、つまりテキストを短縮する長さを決定するパラメータに対する感度に対処できていませんでした。
この論文は、語彙多様性分析を最適化するための推奨事項で締めくくられています。

要約(オリジナル)

The impact of text length on the estimation of lexical diversity has captured the attention of the scientific community for more than a century. Numerous indices have been proposed, and many studies have been conducted to evaluate them, but the problem remains. This methodological review provides a critical analysis not only of the most commonly used indices in language learning studies, but also of the length problem itself, as well as of the methodology for evaluating the proposed solutions. The analysis of three datasets of English language-learners’ texts revealed that indices that reduce all texts to the same length using a probabilistic or an algorithmic approach solve the length dependency problem; however, all these indices failed to address the second problem, which is their sensitivity to the parameter that determines the length to which the texts are reduced. The paper concludes with recommendations for optimizing lexical diversity analysis.

arxiv情報

著者 Yves Bestgen
発行日 2023-07-10 15:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.AP パーマリンク