要約
最近の研究は、テキストの句読点が言語間で普遍的な特徴を示すことを示しています。
西洋の古典文献の分析により、句読点間の空間の分布は、生存分析で通常使用される離散ワイブル分布と整合していることが明らかになりました。
この分析を3つの顕著な現代作品にここに表す中国文学に拡張することにより、ZIPFの法律は、句読点が法律の遵守を改善する西洋のテキストと同様に中国のテキストに適用されることが示されています。
さらに、中国のテキストの句読点間の距離分布は、ワイブルモデルに続きますが、英語の翻訳よりも大きな間隔は頻繁にはありません。
文の長さを表す文の終わりの句読点は、文の長さの柔軟性の向上を反映して、このパターンとは異なります。
この変動性は、特にGao Xingjianの「Soul Mountain」で明らかな複雑で多競合の文構造の形成をサポートしています。
これらの調査結果は、中国と西洋の両方のテキストが普遍的な句読点と単語分布パターンを共有し、言語全体の幅広い適用性を強調することを示しています。
要約(オリジナル)
Recent research shows that punctuation patterns in texts exhibit universal features across languages. Analysis of Western classical literature reveals that the distribution of spaces between punctuation marks aligns with a discrete Weibull distribution, typically used in survival analysis. By extending this analysis to Chinese literature represented here by three notable contemporary works, it is shown that Zipf’s law applies to Chinese texts similarly to Western texts, where punctuation patterns also improve adherence to the law. Additionally, the distance distribution between punctuation marks in Chinese texts follows the Weibull model, though larger spacing is less frequent than in English translations. Sentence-ending punctuation, representing sentence length, diverges more from this pattern, reflecting greater flexibility in sentence length. This variability supports the formation of complex, multifractal sentence structures, particularly evident in Gao Xingjian’s ‘Soul Mountain’. These findings demonstrate that both Chinese and Western texts share universal punctuation and word distribution patterns, underscoring their broad applicability across languages.
arxiv情報
著者 | Michał Dolina,Jakub Dec,Stanisław Drożdż,Jarosław Kwapień,Jin Liu,Tomasz Stanisz |
発行日 | 2025-03-06 14:04:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google