Information-Theoretic Characterization of Vowel Harmony: A Cross-Linguistic Study on Word Lists

要約

データ駆動型の計算モデリングを使用して母音調和を定量化することを目的とした言語横断的な研究を紹介します。
具体的には、自然言語語彙における母音の予測可能性に基づいて調和性の情報理論的尺度を定義し、音素レベル言語モデル (PLM) を使用して推定します。
これまでの定量的研究では、母音調和の分析において語形変化に大きく依存していました。
代わりに、言語間で比較可能な、屈折がほとんどまたはまったくない補題形式を使用してモデルをトレーニングします。これにより、より多くの研究が不十分な言語をカバーできるようになります。
PLM のトレーニング データは、言語ごとに最大 1000 エントリの単語リストで構成されます。
私たちが使用するデータは以前に使用されていたコーパスよりも大幅に小さいという事実にもかかわらず、私たちの実験はニューラル PLM がこの現象を示す一連の言語の母音調和パターンを捕捉することを実証しました。
私たちの研究はまた、単語リストが類型学的研究にとって貴重なリソースであることを実証し、リソースが少なく研究が不十分な言語に関する将来の研究に新たな可能性を提供します。

要約(オリジナル)

We present a cross-linguistic study that aims to quantify vowel harmony using data-driven computational modeling. Concretely, we define an information-theoretic measure of harmonicity based on the predictability of vowels in a natural language lexicon, which we estimate using phoneme-level language models (PLMs). Prior quantitative studies have relied heavily on inflected word-forms in the analysis of vowel harmony. We instead train our models using cross-linguistically comparable lemma forms with little or no inflection, which enables us to cover more under-studied languages. Training data for our PLMs consists of word lists with a maximum of 1000 entries per language. Despite the fact that the data we employ are substantially smaller than previously used corpora, our experiments demonstrate the neural PLMs capture vowel harmony patterns in a set of languages that exhibit this phenomenon. Our work also demonstrates that word lists are a valuable resource for typological research, and offers new possibilities for future studies on low-resource, under-studied languages.

arxiv情報

著者 Julius Steuer,Badr Abdullah,Johann-Mattis List,Dietrich Klakow
発行日 2023-08-09 11:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク