Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language

要約

過去 1 世紀にわたって、トルコ語は主に政府の介入によって大幅な変化を遂げてきました。
この研究では、1923 年にトゥルキエが設立されて以来、トルコ語の進化を調査することが私たちの目的です。そこで、最初にトゥルキエの官報から派生したトルコ語の通時コーパスであるトゥルクロニクルを紹介します。
Turkronicles には政府の行動を詳述した 45,375 の文書が含まれており、国家政策の影響を受けた言語進化を分析するための極めて重要なリソースとなっています。
さらに、トルキエ大国民議会の記録からなる既存の通時的なトルコ語コーパスを、追加の年をカバーすることで拡張します。
次に、これら 2 つの通時的コーパスを組み合わせて、2 つの主要な研究質問に対する答えを求めます。1920 年代以降、トルコ語の語彙と表記規則はどのように変化しましたか?
私たちの分析により、2 つの異なる期間の語彙は、その間の時間が長くなるほど分岐し、新しく造られたトルコ語が古い対応する単語に取って代わることが明らかになりました。
また、書き方の慣例の変化も観察されます。
特に、サーカムフレックスの使用は著しく減少し、文字「-b」と「-d」で終わる単語は、それぞれ「-p」と「-t」の文字に順次置き換えられます。
全体として、この研究はトルコ語の劇的な変化を言語のさまざまな側面から通時的な観点から定量的に浮き彫りにしています。

要約(オリジナル)

Over the past century, the Turkish language has undergone substantial changes, primarily driven by governmental interventions. In this work, our goal is to investigate the evolution of the Turkish language since the establishment of T\’urkiye in 1923. Thus, we first introduce Turkronicles which is a diachronic corpus for Turkish derived from the Official Gazette of T\’urkiye. Turkronicles contains 45,375 documents, detailing governmental actions, making it a pivotal resource for analyzing the linguistic evolution influenced by the state policies. In addition, we expand an existing diachronic Turkish corpus which consists of the records of the Grand National Assembly of T\’urkiye by covering additional years. Next, combining these two diachronic corpora, we seek answers for two main research questions: How have the Turkish vocabulary and the writing conventions changed since the 1920s? Our analysis reveals that the vocabularies of two different time periods diverge more as the time between them increases, and newly coined Turkish words take the place of their old counterparts. We also observe changes in writing conventions. In particular, the use of circumflex noticeably decreases and words ending with the letters ‘-b’ and ‘-d’ are successively replaced with ‘-p’ and ‘-t’ letters, respectively. Overall, this study quantitatively highlights the dramatic changes in Turkish from various aspects of the language in a diachronic perspective.

arxiv情報

著者 Togay Yazar,Mucahid Kutlu,İsa Kerem Bayırlı
発行日 2024-05-16 14:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク