Explicit Morphological Knowledge Improves Pre-training of Language Models for Hebrew

要約

事前トレーニング済み言語モデル (PLM) は、テキスト ストリームでの自己教師ありトレーニングのみに依存して、幅広い言語知識を獲得することに目覚ましい成功を収めています。
それにもかかわらず、この言語に依存しないアプローチの有効性は、形態素豊かな言語 (MRL) に適用した場合のパフォーマンスが最適ではないため、頻繁に疑問視されてきました。
我々は、トレーニング前の段階で明示的な形態学的知識を組み込むことで、MRL の PLM のパフォーマンスを向上できるという仮説を調査します。
私たちは、モデルが生のテキストを超えて形態学的手がかりを活用できるようにする、形態学的に駆動されるさまざまなトークン化方法を提案します。
私たちは、さまざまな方法を利用して複数の言語モデルを事前トレーニングし、複雑で非常に曖昧な形態を持つ言語であるヘブライ語でそれらを評価します。
私たちの実験では、意味論的タスクと形態論的タスクの両方のベンチマークにおいて、形態学的に駆動されたトークン化が標準の言語に依存しないトークン化と比較して結果が向上していることを示しています。
これらの発見は、形態学的知識を組み込むことで、形態学的に豊富な言語の PLM をさらに改善できる可能性があることを示唆しています。

要約(オリジナル)

Pre-trained language models (PLMs) have shown remarkable successes in acquiring a wide range of linguistic knowledge, relying solely on self-supervised training on text streams. Nevertheless, the effectiveness of this language-agnostic approach has been frequently questioned for its sub-optimal performance when applied to morphologically-rich languages (MRLs). We investigate the hypothesis that incorporating explicit morphological knowledge in the pre-training phase can improve the performance of PLMs for MRLs. We propose various morphologically driven tokenization methods enabling the model to leverage morphological cues beyond raw text. We pre-train multiple language models utilizing the different methods and evaluate them on Hebrew, a language with complex and highly ambiguous morphology. Our experiments show that morphologically driven tokenization demonstrates improved results compared to a standard language-agnostic tokenization, on a benchmark of both semantic and morphologic tasks. These findings suggest that incorporating morphological knowledge holds the potential for further improving PLMs for morphologically rich languages.

arxiv情報

著者 Eylon Gueta,Omer Goldman,Reut Tsarfaty
発行日 2023-11-01 17:02:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク