Detecting Lexical Borrowings from Dominant Languages in Multilingual Wordlists

要約

言語接触は、ドナー言語からレシピエント言語への単語の借用に反映される普及した現象です。
借用検出に対するほとんどの計算アプローチは、研究対象のすべての言語を同等に重要なものとして扱いますが、支配的な言語はその逆よりも伝統的な言語に強い影響を与えます。
支配的な言語が重要な役割を果たす接触状況で語彙借用検出の新しい方法をテストし、2 つの古典的なシーケンス比較方法と 1 つの機械学習方法を、すべてスペイン語から広範に借用した 7 つのラテン アメリカ言語のサンプルに適用します。
すべての方法がうまく機能し、教師あり機械学習システムが従来のシステムよりも優れています。
検出エラーのレビューは、受信者の単語とは異なる意味を持つドナーの単語を考慮に入れることで、借用の検出を大幅に改善できることを示しています。

要約(オリジナル)

Language contact is a pervasive phenomenon reflected in the borrowing of words from donor to recipient languages. Most computational approaches to borrowing detection treat all languages under study as equally important, even though dominant languages have a stronger impact on heritage languages than vice versa. We test new methods for lexical borrowing detection in contact situations where dominant languages play an important role, applying two classical sequence comparison methods and one machine learning method to a sample of seven Latin American languages which have all borrowed extensively from Spanish. All methods perform well, with the supervised machine learning system outperforming the classical systems. A review of detection errors shows that borrowing detection could be substantially improved by taking into account donor words with divergent meanings from recipient words.

arxiv情報

著者 John E. Miller,Johann-Mattis List
発行日 2023-02-21 08:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク