A Language and Its Dimensions: Intrinsic Dimensions of Language Fractal Structures


自然言語のすべての $n$-gram の埋め込みのセットが、このフラクタル セットの代表的なサンプルを構成すると仮説を立てます。
($n$ 全体にわたるすべての言語のフラクタル構造の合計を指すために、ハイロナケアという用語を使用します)。
この論文は、ロシア語と英語の言語フラクタル構造の固有の (本物の) 次元を推定します。
この目的を達成するために、(1) トポロジカル データ分析、および (2) 対象となる点群のデータ グラフの最小スパニング ツリー (スティール定理) に基づく方法を採用します。
どちらの言語でも、すべての $n$ について、固有次元は非整数値 (フラクタル セットに典型的) であるように見え、ロシア語と英語の両方で 9 に近い値になります。


The present paper introduces a novel object of study – a language fractal structure. We hypothesize that a set of embeddings of all $n$-grams of a natural language constitutes a representative sample of this fractal set. (We use the term Hailonakea to refer to the sum total of all language fractal structures, over all $n$). The paper estimates intrinsic (genuine) dimensions of language fractal structures for the Russian and English languages. To this end, we employ methods based on (1) topological data analysis and (2) a minimum spanning tree of a data graph for a cloud of points considered (Steele theorem). For both languages, for all $n$, the intrinsic dimensions appear to be non-integer values (typical for fractal sets), close to 9 for both of the Russian and English language.


著者 Vasilii A. Gromov,Nikita S. Borodin,Asel S. Yerbolova
発行日 2023-11-16 22:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, math.AT, nlin.CD パーマリンク