要約
マスク言語モデリング (MLM) 目標に基づいてトレーニングされた多言語事前トレーニング済み言語モデル (multiPLM) は、バイテキスト マイニングなどの言語を越えたタスクに一般的に使用されます。
ただし、これらのモデルのパフォーマンスは、低リソース言語 (LRL) にとっては依然として最適ではありません。
特定の multiPLM の言語表現を改善するために、さらに事前トレーニングを行うことができます。
これは継続的な事前トレーニングとして知られています。
以前の研究では、MLM を使用した継続的な事前トレーニングとその後の翻訳言語モデリング (TLM) を使用することで、マルチ PLM の異言語表現が向上することが示されています。
ただし、マスキング中、MLM と TLM はどちらも、トークンの言語特性に関係なく、入力シーケンス内のすべてのトークンに同じ重みを与えます。
このペーパーでは、既存の multiPLM のクロスリンガル表現をさらに改善するために、継続的な事前トレーニング ステップで使用される新しいマスキング戦略である言語エンティティ マスキング (LEM) を紹介します。
MLM や TLM とは対照的に、LEM はマスキングを、文中でより重要度の高い言語エンティティ タイプの名詞、動詞、名前付きエンティティに限定します。
第 2 に、MLM と TLM ではトークンがランダムにマスクされるのに対し、マスキングを言語エンティティ スパン内の単一のトークンに制限して、より多くのコンテキストを保持します。
私たちは、3 つの下流タスク、つまり、英語 – シンハラ語、英語 – タミル語、およびシンハラ語 – タミル語の 3 つの低リソース言語ペアを使用した、バイテキスト マイニング、並列データ キュレーション、およびコード混合感情分析を使用して、LEM の有効性を評価します。
実験結果は、LEM を使用して multiPLM を継続的に事前トレーニングした方が、3 つのタスクすべてにおいて、MLM+TLM を使用して継続的に事前トレーニングされた multiPLM よりも優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
Multilingual Pre-trained Language models (multiPLMs), trained on the Masked Language Modelling (MLM) objective are commonly being used for cross-lingual tasks such as bitext mining. However, the performance of these models is still suboptimal for low-resource languages (LRLs). To improve the language representation of a given multiPLM, it is possible to further pre-train it. This is known as continual pre-training. Previous research has shown that continual pre-training with MLM and subsequently with Translation Language Modelling (TLM) improves the cross-lingual representation of multiPLMs. However, during masking, both MLM and TLM give equal weight to all tokens in the input sequence, irrespective of the linguistic properties of the tokens. In this paper, we introduce a novel masking strategy, Linguistic Entity Masking (LEM) to be used in the continual pre-training step to further improve the cross-lingual representations of existing multiPLMs. In contrast to MLM and TLM, LEM limits masking to the linguistic entity types nouns, verbs and named entities, which hold a higher prominence in a sentence. Secondly, we limit masking to a single token within the linguistic entity span thus keeping more context, whereas, in MLM and TLM, tokens are masked randomly. We evaluate the effectiveness of LEM using three downstream tasks, namely bitext mining, parallel data curation and code-mixed sentiment analysis using three low-resource language pairs English-Sinhala, English-Tamil, and Sinhala-Tamil. Experiment results show that continually pre-training a multiPLM with LEM outperforms a multiPLM continually pre-trained with MLM+TLM for all three tasks.
arxiv情報
著者 | Aloka Fernando,Surangika Ranathunga |
発行日 | 2025-01-10 04:17:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google