A Simple Joint Model for Improved Contextual Neural Lemmatization

要約

英語の動詞には複数の形式があります。
たとえば、talk は、文脈に応じて、talk、talk、talking とも表現されます。
NLP の見出し語化タスクでは、これらの多様な形式を見出し語として知られる標準的な形式にマッピングし直すことを目指します。
我々は、ユニバーサル依存関係コーパスからの 20 言語で最先端の結果を達成する、見出し語化と形態学的タグ付けのための単純な結合ニューラル モデルを紹介します。
私たちの論文では、トレーニングとデコードの手順に加えてモデルについて説明します。
エラー分析の結果、結合形態学的タグ付けと見出し語化は、リソースが少ない見出し語化や形態学的複雑性がより高い言語で特に役立つことがわかりました。
コードと事前トレーニングされたモデルは https://sigmorphon.github.io/sharedtasks/2019/task2/ で入手できます。

要約(オリジナル)

English verbs have multiple forms. For instance, talk may also appear as talks, talked or talking, depending on the context. The NLP task of lemmatization seeks to map these diverse forms back to a canonical one, known as the lemma. We present a simple joint neural model for lemmatization and morphological tagging that achieves state-of-the-art results on 20 languages from the Universal Dependencies corpora. Our paper describes the model in addition to training and decoding procedures. Error analysis indicates that joint morphological tagging and lemmatization is especially helpful in low-resource lemmatization and languages that display a larger degree of morphological complexity. Code and pre-trained models are available at https://sigmorphon.github.io/sharedtasks/2019/task2/.

arxiv情報

著者 Chaitanya Malaviya,Shijie Wu,Ryan Cotterell
発行日 2024-05-28 14:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク