Correlation Dimension of Natural Language in a Statistical Manifold

要約

自然言語の相関次元は、大規模な言語モデルによって生成された高次元シーケンスにグラスバーガー プロカッチャ アルゴリズムを適用することによって測定されます。
この方法は、以前はユークリッド空間でのみ研究されていましたが、フィッシャー-ラオ距離を介して統計多様体で再定式化されます。
言語は、グローバルな自己相似性と約 6.5 のユニバーサル次元を備えたマルチフラクタルを示します。これは、単純な離散ランダム シーケンスの次元よりも小さく、Barab\’asi-Albert プロセスの次元よりも大きくなります。
長期記憶は自己類似性を生み出す鍵となります。
私たちの方法は、現実世界の離散シーケンスのあらゆる確率モデルに適用可能であり、音楽データへの応用例を示します。

要約(オリジナル)

The correlation dimension of natural language is measured by applying the Grassberger-Procaccia algorithm to high-dimensional sequences produced by a large-scale language model. This method, previously studied only in a Euclidean space, is reformulated in a statistical manifold via the Fisher-Rao distance. Language exhibits a multifractal, with global self-similarity and a universal dimension around 6.5, which is smaller than those of simple discrete random sequences and larger than that of a Barab\’asi-Albert process. Long memory is the key to producing self-similarity. Our method is applicable to any probabilistic model of real-world discrete sequences, and we show an application to music data.

arxiv情報

著者 Xin Du,Kumiko Tanaka-Ishii
発行日 2024-05-10 08:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.AI, cs.CL パーマリンク