K-UniMorph: Korean Universal Morphology and its Feature Schema

要約

この研究では、韓国語用の新しいユニバーサル形態学データセットを紹介します。
これまで、韓国語は、何百もの多様な世界言語の中で、形態学的パラダイムの分野で過小評価されてきました。
したがって、我々は、韓国語の独特の特徴を維持するこの言語に対する普遍形態学的パラダイムを提案します。
K-UniMorph データセットでは、語尾の各文法基準を詳細に概説し、活用形を抽出する方法を明確にし、形態素スキーマを生成する方法を示します。
このデータセットは、Sylak-Glassman らの形態学的特徴スキーマを採用しています。
韓国語については、Sylak-Glassman (2015) と Sylak-Glassman (2016) を参考に、形態素的に分析された韓国語最大の注釈付きコーパスの 1 つである世宗コーパスから活用動詞形を抽出しました。
データ作成の際には、世宗コーパスからの変換が正しいかどうかを調査することも方法論に含まれています。
さらに、文字、音節、形態素という 3 つの異なる韓国語の単語形式を使用して屈折タスクを実行します。
最後に、韓国語の形態学的パラダイムとデータセットに関する将来の展望について議論し説明します。

要約(オリジナル)

We present in this work a new Universal Morphology dataset for Korean. Previously, the Korean language has been underrepresented in the field of morphological paradigms amongst hundreds of diverse world languages. Hence, we propose this Universal Morphological paradigms for the Korean language that preserve its distinct characteristics. For our K-UniMorph dataset, we outline each grammatical criterion in detail for the verbal endings, clarify how to extract inflected forms, and demonstrate how we generate the morphological schemata. This dataset adopts morphological feature schema from Sylak-Glassman et al. (2015) and Sylak-Glassman (2016) for the Korean language as we extract inflected verb forms from the Sejong morphologically analyzed corpus that is one of the largest annotated corpora for Korean. During the data creation, our methodology also includes investigating the correctness of the conversion from the Sejong corpus. Furthermore, we carry out the inflection task using three different Korean word forms: letters, syllables and morphemes. Finally, we discuss and describe future perspectives on Korean morphological paradigms and the dataset.

arxiv情報

著者 Eunkyul Leah Jo,Kyuwon Kim,Xihan Wu,KyungTae Lim,Jungyeul Park,Chulwoo Park
発行日 2023-05-16 14:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク