Ordinal analysis of lexical patterns

要約

言葉は、意味を通して思考と物事を結びつける基本的な言語単位です。
ただし、単語はテキスト シーケンス内で独立して表示されるわけではありません。
構文規則の存在は、隣接する単語間の相関を誘発します。
順序パターン アプローチを使用して、11 の主要な言語の字句統計的接続の分析を提示します。
言語が単語の関係を表現するために利用する多様な方法が、独自のパターンの構造分布を生み出すことがわかりました。
さらに、特定の言語のこれらのパターン分布の変動により、テキストが書かれた歴史的な時代とその作者の両方を特定することができます。
まとめると、我々の結果は、言語類型学、歴史言語学、スタイルメトリーにおける順序時系列分析の関連性を強調しています。

要約(オリジナル)

Words are fundamental linguistic units that connect thoughts and things through meaning. However, words do not appear independently in a text sequence. The existence of syntactic rules induces correlations among neighboring words. Using an ordinal pattern approach, we present an analysis of lexical statistical connections for 11 major languages. We find that the diverse manners that languages utilize to express word relations give rise to unique pattern structural distributions. Furthermore, fluctuations of these pattern distributions for a given language can allow us to determine both the historical period when the text was written and its author. Taken together, our results emphasize the relevance of ordinal time series analysis in linguistic typology, historical linguistics and stylometry.

arxiv情報

著者 David Sanchez,Luciano Zunino,Juan De Gregorio,Raul Toral,Claudio Mirasso
発行日 2023-03-14 17:06:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.CL, physics.soc-ph パーマリンク