要約
言語は、共通の言語特性を共有するファミリーにグループ化されます。
このアプローチは、多様な言語間の遺伝的関係を理解することに成功しましたが、特に構文などのあまり研究されていない言語レベルでの関連性を正確に定量化するには、さらなる分析が必要です。
ここでは、Universal dependency データセットから抽出された一連の品詞 (POS) を使用して言語的距離を調査します。
情報理論の枠組みの中で、POS トライグラムを使用すると、構文のバリエーションを捕捉できる可能性が最大化され、同時に利用可能なデータ量と互換性があることを示します。
次に、POS 分布に基づいてペアごとの距離を評価することによって、言語的なつながりが確立されます。
興味深いことに、私たちの分析では、明確な形態学的類型によって説明される例外を除いて、よく知られている言語族および言語グループに対応する明確なクラスターが明らかになりました。
さらに、言語の類似性と地理的距離の間に有意な相関関係が得られ、これは言語の親族関係に対する空間的近接性の影響を強調しています。
要約(オリジナル)
Languages are grouped into families that share common linguistic traits. While this approach has been successful in understanding genetic relations between diverse languages, more analyses are needed to accurately quantify their relatedness, especially in less studied linguistic levels such as syntax. Here, we explore linguistic distances using series of parts of speech (POS) extracted from the Universal Dependencies dataset. Within an information-theoretic framework, we show that employing POS trigrams maximizes the possibility of capturing syntactic variations while being at the same time compatible with the amount of available data. Linguistic connections are then established by assessing pairwise distances based on the POS distributions. Intriguingly, our analysis reveals definite clusters that correspond to well known language families and groups, with exceptions explained by distinct morphological typologies. Furthermore, we obtain a significant correlation between language similarity and geographic distance, which underscores the influence of spatial proximity on language kinships.
arxiv情報
著者 | Juan De Gregorio,Raúl Toral,David Sánchez |
発行日 | 2024-03-27 10:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google