Marshall-Olkin Power-Law Distributions in Length-Frequency of Entities

要約

実体には具体的な意味を持つ重要な概念が含まれており、多くの言語タスクにおいて重要な役割を果たします。
実体は言語タスクごとに異なる形式を持ち、研究者はそれらの異なる形式を異なる概念として扱います。
この論文では、これらの異なる形式のエンティティを結び付ける共通の特徴があるかどうかを知りたいと考えています。
具体的には、さまざまなタイプおよびさまざまな言語のエンティティの基礎となる分布を調査し、それらの多様なエンティティの背後にある共通の特徴を解明しようとします。
さまざまなタイプの実体に関する 12 個のデータセットと、さまざまな言語の実体に関する 18 個のデータセットを分析した結果、これらの実体は多くの面で互いに劇的に多様であるものの、それらの長さ周波数はマーシャル・オルキン力のファミリーによってよく特徴付けることができることがわかりました。
-法律 (MOPL) ディストリビューション。
私たちは、さまざまなタイプおよびさまざまな言語のエンティティに関するこれら 30 個のデータセットに対して実験を実施しました。その実験結果は、MOPL モデルが 2 つの最先端のべき乗則モデルと代替対数モデルよりもはるかに優れてエンティティの長さ周波数を特徴付けることを示しています。
通常モデル。
実験結果は、MOPL モデルが大規模な現実世界のデータセット内のエンティティの長さ頻度に合わせてスケーラブルであることも示しています。

要約(オリジナル)

Entities involve important concepts with concrete meanings and play important roles in numerous linguistic tasks. Entities have different forms in different linguistic tasks and researchers treat those different forms as different concepts. In this paper, we are curious to know whether there are some common characteristics that connect those different forms of entities. Specifically, we investigate the underlying distributions of entities from different types and different languages, trying to figure out some common characteristics behind those diverse entities. After analyzing twelve datasets about different types of entities and eighteen datasets about entities in different languages, we find that while these entities are dramatically diverse from each other in many aspects, their length-frequencies can be well characterized by a family of Marshall-Olkin power-law (MOPL) distributions. We conduct experiments on those thirty datasets about entities in different types and different languages, and experimental results demonstrate that MOPL models characterize the length-frequencies of entities much better than two state-of-the-art power-law models and an alternative log-normal model. Experimental results also demonstrate that MOPL models are scalable to the length-frequency of entities in large-scale real-world datasets.

arxiv情報

著者 Xiaoshi Zhong,Xiang Yu,Erik Cambria,Jagath C. Rajapakse
発行日 2023-08-30 04:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク