On the Role of Morphological Information for Contextual Lemmatization

要約

見出し語化は、特定の語形変化した単語からその正規形または見出し語を生成することからなる自然言語処理 (NLP) タスクです。
見出し語化は、下流の NLP アプリケーションを容易にする基本タスクの 1 つであり、語形変化の多い言語では特に重要です。
語形変化した単語から補題を取得するプロセスが、その形態構文カテゴリを調べることで説明できることを考えると、文脈上の補題をトレーニングするためのきめ細かい形態構文情報を含めることは、それが下流のパフォーマンスの観点から最適であるかどうかを考慮することなく、一般的に行われてきました。
この問題に対処するために、この論文では、形態学的複雑さのさまざまな範囲内の 6 つの言語 (バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語) で文脈的レンマタイザーを開発するための形態学的情報の役割を実証的に調査します。
さらに、これまでの研究の大部分とは異なり、ドメイン外設定でのレンマタイザも評価します。これは結局のところ、レンマタイザの最も一般的なアプリケーションの使用を構成します。
私たちの研究結果はかなり驚くべきものです。
学習中にレンマタイザーにきめ細かい形態学的特徴を提供することは、膠着言語であってもそれほど有益ではないことがわかりました。
実際、現代の文脈上の単語表現は、明示的な形態学的信号を見ることなく、競合する文脈上のレンマタイザーを取得するのに十分な形態学的情報を暗黙的にエンコードしているようです。
さらに、私たちの実験は、ドメイン外で最適な見出し語化は、単純な UPOS タグを使用するもの、または形態学なしでトレーニングされたものであること、そして最後に、現在の見出し語化の評価手法はモデルを明確に区別するには適切ではないことを示唆しています。

要約(オリジナル)

Lemmatization is a natural language processing (NLP) task which consists of producing, from a given inflected word, its canonical form or lemma. Lemmatization is one of the basic tasks that facilitate downstream NLP applications, and is of particular importance for high-inflected languages. Given that the process to obtain a lemma from an inflected word can be explained by looking at its morphosyntactic category, including fine-grained morphosyntactic information to train contextual lemmatizers has become common practice, without considering whether that is the optimum in terms of downstream performance. In order to address this issue, in this paper we empirically investigate the role of morphological information to develop contextual lemmatizers in six languages within a varied spectrum of morphological complexity: Basque, Turkish, Russian, Czech, Spanish and English. Furthermore, and unlike the vast majority of previous work, we also evaluate lemmatizers in out-of-domain settings, which constitutes, after all, their most common application use. The results of our study are rather surprising. It turns out that providing lemmatizers with fine-grained morphological features during training is not that beneficial, not even for agglutinative languages. In fact, modern contextual word representations seem to implicitly encode enough morphological information to obtain competitive contextual lemmatizers without seeing any explicit morphological signal. Moreover, our experiments suggest that the best lemmatizers out-of-domain are those using simple UPOS tags or those trained without morphology and, finally, that current evaluation practices for lemmatization are not adequate to clearly discriminate between models.

arxiv情報

著者 Olia Toporkov,Rodrigo Agerri
発行日 2023-10-20 15:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク