要約
タイトル:マーシャルオルキン累乗則分布を用いたエンティティの長さ頻度における研究
要約:
– 「エンティティ」は、言語学的なタスクにおいて非常に重要な意味を持つ表現であり、種々の形式を持ちます。
– 本論文では、異なるタイプおよび言語のエンティティの基本的な分布特性に興味を持ち、共通点を探究します。
– 12種類のエンティティと18種類の言語についての実験を行い、エンティティの長さ頻度はマーシャルオルキン累乗則(MOPL)分布の特徴を示していることがわかりました。これらの分布には、定義された平均値と有限な分散が備わっています。
– 実験により、異なるエンティティは同じ分布から抽出されるわけではありませんが、同じタイプのエンティティは同じ分布から抽出される傾向があることが示されました。
– また、マーシャルオルキン累乗則モデルは、純粋な累乗則モデルや対数正規分布モデルよりも、エンティティの長さ頻度をよりよく説明することができることが示されました。
要約(オリジナル)
Entities involve important concepts with concrete meanings and play important roles in numerous linguistic tasks. Entities have different forms in different tasks and researchers treat those forms as different concepts. In this paper, we are curious to know whether there are some common characteristics connecting those different forms of entities. Specifically, we investigate the underlying distributions of entities from different types and different languages, trying to figure out some common properties behind those diverse entities. We find from twelve datasets about different types of entities and eighteen datasets about different languages of entities that although these entities are dramatically diverse from each in many aspects, their length-frequencies can be well characterized by Marshall-Olkin power-law (MOPL) distributions, and these distributions possess defined means and finite variances. Our experiments show that while not all the entities are drawn from the same underlying population, those entities under same types tend to be drawn from the same distribution. Our experiments also show that Marshall-Olkin power-law models characterize the length-frequencies of entities much better than pure power-law models and log-normal models.
arxiv情報
著者 | Xiaoshi Zhong,Xiang Yu,Erik Cambria,Jagath C. Rajapakse |
発行日 | 2023-05-10 08:47:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI