Assessing Keyness using Permutation Tests

要約

我々は、Gries (2006, 2022) の提案に基づいて、コーパス言語学におけるキーネスを評価するためのリサンプリング ベースのアプローチを提案します。
仮説検定 (尤度比など) に基づく従来のアプローチでは、コポラを独立して同一に分散されたトークンのサンプルとしてモデル化します。
このモデルは、コーパス全体でよく観察される単語の出現の不均一な分布を考慮していません。
単語の出現が少数のドキュメントに集中している場合、LLR および同様のスコアの大きな値は、実際にはトークンごとのサンプリング モデルで考慮されるよりもはるかに高く、誤検知につながります。
トークンごとのサンプリング モデルを、コーパスがトークンではなくドキュメントのサンプルであるモデルに置き換えます。これは、コーパスが実際に組み立てられる方法にはるかに近いものです。
次に、順列アプローチを使用して、等しい頻度の帰無仮説の下で特定のキーネス スコアの分布を近似し、有意性を評価するための p 値を取得します。
トークンがドキュメント内またはドキュメント間でどのように編成されるかについて仮定する必要はなく、このアプローチは基本的に「あらゆる」キーネス スコアで機能します。
したがって、LLR などのスコアのより正確な p 値を取得する以外に、たとえば、スコアの有意性を評価することもできます。
効果の大きさの尺度として提案されている対数比。
提案されたアプローチの効率的な実装は、github から入手可能な「R」パッケージ「keyperm」で提供されます。

要約(オリジナル)

We propose a resampling-based approach for assessing keyness in corpus linguistics based on suggestions by Gries (2006, 2022). Traditional approaches based on hypothesis tests (e.g. Likelihood Ratio) model the copora as independent identically distributed samples of tokens. This model does not account for the often observed uneven distribution of occurences of a word across a corpus. When occurences of a word are concentrated in few documents, large values of LLR and similar scores are in fact much more likely than accounted for by the token-by-token sampling model, leading to false positives. We replace the token-by-token sampling model by a model where corpora are samples of documents rather than tokens, which is much closer to the way corpora are actually assembled. We then use a permutation approach to approximate the distribution of a given keyness score under the null hypothesis of equal frequencies and obtain p-values for assessing significance. We do not need any assumption on how the tokens are organized within or across documents, and the approach works with basically *any* keyness score. Hence, appart from obtaining more accurate p-values for scores like LLR, we can also assess significance for e.g. the logratio which has been proposed as a measure of effect size. An efficient implementation of the proposed approach is provided in the `R` package `keyperm` available from github.

arxiv情報

著者 Thoralf Mildenberger
発行日 2023-08-25 13:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.AP パーマリンク