Probabilistic Method of Measuring Linguistic Productivity

要約

この論文では、新しい複雑な単語を造語するために使用される接辞の能力を客観的に評価し、他の一般的な測定とは異なり、トークンの頻度に直接依存しない、言語生産性を測定する新しい方法を提案します。
具体的には、言語生産性は接辞がランダムな基底と結合する確率として見なすことができると私は提案します。
このアプローチの利点は次のとおりです。
まず、トークンの頻度は生産性の尺度を支配するものではありませんが、当然のことながら塩基のサンプリングに影響を与えます。
第 2 に、接辞付きで証明された単語タイプをカウントするだけではなく、これらのタイプの構築をシミュレートし、コーパス内で証明されているかどうかをチェックします。
第三に、コーパスベースのアプローチとランダム化された設計により、真の新造語と昔に造られた単語が選択される機会が同等であることが保証されます。
提案されたアルゴリズムは、英語とロシア語の両方のデータで評価されます。
得られた結果は、言語生産性とタイプおよびトークンの数の関係についての貴重な洞察を提供します。
言語生産性の急成長は、種類の増加に現れているようです。
ただし、このプロセスは 2 段階で展開されます。最初に高頻度項目が増加し、その後に低頻度項目が増加します。

要約(オリジナル)

In this paper I propose a new way of measuring linguistic productivity that objectively assesses the ability of an affix to be used to coin new complex words and, unlike other popular measures, is not directly dependent upon token frequency. Specifically, I suggest that linguistic productivity may be viewed as the probability of an affix to combine with a random base. The advantages of this approach include the following. First, token frequency does not dominate the productivity measure but naturally influences the sampling of bases. Second, we are not just counting attested word types with an affix but rather simulating the construction of these types and then checking whether they are attested in the corpus. Third, a corpus-based approach and randomised design assure that true neologisms and words coined long ago have equal chances to be selected. The proposed algorithm is evaluated both on English and Russian data. The obtained results provide some valuable insights into the relation of linguistic productivity to the number of types and tokens. It looks like burgeoning linguistic productivity manifests itself in an increasing number of types. However, this process unfolds in two stages: first comes the increase in high-frequency items, and only then follows the increase in low-frequency items.

arxiv情報

著者 Sergei Monakhov
発行日 2023-08-24 08:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク