Hybrid lemmatization in HuSpaCy

要約

見出し語化は、形態学的に豊富な言語にとって依然として簡単な作業ではありません。
以前の研究では、通常、ハイブリッド アーキテクチャがこれらの言語でより適切に機能し、優れた結果が得られることが示されています。
この論文では、ニューラル モデル、辞書、および手作りのルールの両方を利用するハイブリッド レンマタイザーを紹介します。
広く使用されているハンガリーのデータセットに関する実証結果とともに、ハイブリッド アーキテクチャを紹介します。
提示された手法は 3 つの HuSpaCy モデルとして公開されています。

要約(オリジナル)

Lemmatization is still not a trivial task for morphologically rich languages. Previous studies showed that hybrid architectures usually work better for these languages and can yield great results. This paper presents a hybrid lemmatizer utilizing both a neural model, dictionaries and hand-crafted rules. We introduce a hybrid architecture along with empirical results on a widely used Hungarian dataset. The presented methods are published as three HuSpaCy models.

arxiv情報

著者 Péter Berkecz,György Orosz,Zsolt Szántó,Gergő Szabó,Richárd Farkas
発行日 2023-06-13 09:15:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク