Multilingual Gradient Word-Order Typology from Universal Dependencies

要約

言語類型論分野の情報は、自然言語処理タスクのパフォーマンスを向上させる可能性を秘めているが、信頼できる類型論データが前提条件となる。WALSやGrambankを含む既存の類型論データベースは、主にそのカテゴリ形式によって引き起こされる矛盾に悩まされています。さらに、類型分類は定義上、自然言語コーパスに見られるような現象の連続的な性質とは大きく異なる。本論文では、言語の多様性をよりよく反映することができる、カテゴリーデータではなく連続値データからなる新しいシードデータセットを紹介する。この最初のデータセットは語順の類型に焦点を当てているが、このデータセットを作成するために使用した方法論も紹介する。

要約(オリジナル)

While information from the field of linguistic typology has the potential to improve performance on NLP tasks, reliable typological data is a prerequisite. Existing typological databases, including WALS and Grambank, suffer from inconsistencies primarily caused by their categorical format. Furthermore, typological categorisations by definition differ significantly from the continuous nature of phenomena, as found in natural language corpora. In this paper, we introduce a new seed dataset made up of continuous-valued data, rather than categorical data, that can better reflect the variability of language. While this initial dataset focuses on word-order typology, we also present the methodology used to create the dataset, which can be easily adapted to generate data for a broader set of features and languages.

arxiv情報

著者 Emi Baylor,Esther Ploeger,Johannes Bjerva
発行日 2024-02-02 15:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク