Sampling the Swadesh List to Identify Similar Languages with Tree Spaces

要約

コミュニケーションは人間関係において重要な役割を果たします。
言語を勉強することは価値のある仕事ですが、最近では定量的比較言語学や辞書統計学などの分野の発展により、本質的に定量的なものになってきています。
著者自身の母国語に関しては、英語とラテン文字の祖先が主な関心事です。
インド・ヨーロッパ語族の木は、多くの現代言語をインド・ヨーロッパ祖語のルートまで遡ります。
スワデシュ語の同族は、ゲルマン語、ケルト語、イタリック語、バルト・スラブ語を主要な支流とする歴史的観点の発展に大きな役割を果たしました。
この論文では、最も単純な特異空間が 3 スパイダー (端点が点 0 に接着された 3 本の光線の結合 T3) であるオープン ブックのデータ分析を使用します。これは、言語クラスタリング用のこれらのツリー空間を表すことができます。
これらのツリーは、ラテン文字を使用する言語のサンプル間の距離に基づいてクラスタリングする単一のリンケージ方法を使用して構築されます。
一度に 3 つの言語を使用すると、重心が決定されます。
いくつかの初期結果では、非粘着性サンプル平均値と粘着性サンプル平均値の両方が見つかりました。
平均値が非固定的な特性を示す場合、1 つの言語は他の 2 つの言語とは異なる祖先に由来している可能性があります。
平均値が粘着性であるとみなされる場合、言語は共通の祖先を共有しているか、すべての言語が異なる祖先を持っている可能性があります。

要約(オリジナル)

Communication plays a vital role in human interaction. Studying language is a worthwhile task and more recently has become quantitative in nature with developments of fields like quantitative comparative linguistics and lexicostatistics. With respect to the authors own native languages, the ancestry of the English language and the Latin alphabet are of the primary interest. The Indo-European Tree traces many modern languages back to the Proto-Indo-European root. Swadesh’s cognates played a large role in developing that historical perspective where some of the primary branches are Germanic, Celtic, Italic, and Balto-Slavic. This paper will use data analysis on open books where the simplest singular space is the 3-spider – a union T3 of three rays with their endpoints glued at a point 0 – which can represent these tree spaces for language clustering. These trees are built using a single linkage method for clustering based on distances between samples from languages which use the Latin Script. Taking three languages at a time, the barycenter is determined. Some initial results have found both non-sticky and sticky sample means. If the mean exhibits non-sticky properties, then one language may come from a different ancestor than the other two. If the mean is considered sticky, then the languages may share a common ancestor or all languages may have different ancestry.

arxiv情報

著者 Garett Ordway,Vic Patrangenaru
発行日 2024-05-10 15:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.AP パーマリンク