Strahler Number of Natural Language Sentences in Comparison with Random Trees

要約

ストララー数はもともと川の分岐点の複雑さを特徴付けるために提案され、さまざまな用途が発見されました。
この記事では、自然言語文ツリー構造のストララー数の上限と下限の計算を提案します。
文法的に注釈が付けられたデータにわたる経験的測定を通じて、Strahler (1957) によって報告された川の分岐点の場合と同様に、自然言語文の Strahler 数はほぼ 3 または 4 であることが示されています。
この数値の背後にある理論から、これが文の処理に必要なメモリ量の下限値の一種であることがわかります。
我々は、文を処理するために必要な記憶領域の数が解析に 3 ~ 4 であることを示す報告 (Schuler et al., 2010) や心理的な「魔法の数」が 3 ~ 5 であることを示す報告を説明する推論を提供するために Strahler 数を考慮します。
(コーワン、2001)。
分析的および経験的分析により、ストララー数は一定ではなく、対数的に増加することが示されています。
したがって、Strahler 文の数は文の長さの範囲から導出されます。
さらに、Strahler 数はランダム ツリーでも変わりません。これは、その起源が自然言語に固有ではないことを示唆している可能性があります。

要約(オリジナル)

The Strahler number was originally proposed to characterize the complexity of river bifurcation and has found various applications. This article proposes computation of the Strahler number’s upper and lower limits for natural language sentence tree structures. Through empirical measurements across grammatically annotated data, the Strahler number of natural language sentences is shown to be almost 3 or 4, similarly to the case of river bifurcation as reported by Strahler (1957). From the theory behind the number, we show that it is one kind of lower limit on the amount of memory required to process sentences. We consider the Strahler number to provide reasoning that explains reports showing that the number of required memory areas to process sentences is 3 to 4 for parsing (Schuler et al., 2010), and reports indicating a psychological ‘magical number’ of 3 to 5 (Cowan, 2001). An analytical and empirical analysis shows that the Strahler number is not constant but grows logarithmically; therefore, the Strahler number of sentences derives from the range of sentence lengths. Furthermore, the Strahler number is not different for random trees, which could suggest that its origin is not specific to natural language.

arxiv情報

著者 Kumiko Tanaka-Ishii,Akira Tanaka
発行日 2023-12-06 12:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.data-an パーマリンク