Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese

要約

この論文では、事前トレーニング言語モデル (LM) 用の機械翻訳を使用して作成された合成データとしての Translationese の有用性を検討します。
事前トレーニングには膨大な量の単言語データが必要ですが、英語以外の言語ではほとんどの場合利用できません。
最近、このデータ不足に対処するために合成データを使用することへの関心が高まっています。
英語とインド言語を例に挙げ、Web クロールされた単一言語ドキュメント (クリーン) をターゲット言語に翻訳します。
次に、この翻訳データ (合成) で 2,800 万個と 8,500 万個のパラメーターを含む言語モデルをトレーニングします。
下流の自然言語理解および生成タスクにおけるパフォーマンスは、クリーン データで事前トレーニングされた LM と比べて、NLU タスクでは 3.56%、NLG タスクでは 1.51% 低いだけであることがわかります。
さらに、クリーンデータで事前トレーニングされた軽量の TinyLM を使用して合成データを効率的にフィルタリングし、モデルのパフォーマンスを大幅に向上させることを提案します。
また、合成データでトレーニングされた LM は、クリーン データのごく一部 (10%) で拡張された事前トレーニングから大きな恩恵を受けることもわかりました。
私たちは、この作業の一環として収集および作成したデータを、単言語文書レベルのコーパスの最大のコレクションである IndicMonoDoc として公開します。これは、大規模な言語モデルの英語と英語以外のパフォーマンスのギャップを埋めるのに役立つことを期待しています。

要約(オリジナル)

In this paper, we explore the utility of Translationese as synthetic data created using machine translation for pre-training language models (LMs). Pre-training requires vast amounts of monolingual data, which is mostly unavailable for languages other than English. Recently, there has been a growing interest in using synthetic data to address this data scarcity. We take the case of English and Indic languages and translate web-crawled monolingual documents (clean) into the target language. Then, we train language models containing 28M and 85M parameters on this translationese data (synthetic). We show that their performance on downstream natural language understanding and generative tasks is only 3.56% poorer on NLU tasks and 1.51% on NLG tasks than LMs pre-trained on clean data. Further, we propose the use of lightweight TinyLMs pre-trained on clean data to filter synthetic data efficiently which significantly improves the performance of our models. We also find that LMs trained on synthetic data strongly benefit from extended pretraining on a tiny fraction (10%) of clean data. We release the data we collected and created as a part of this work, IndicMonoDoc, the largest collection of monolingual document-level corpora, which we hope will help bridge the gap between English and non-English performance for large language models.

arxiv情報

著者 Meet Doshi,Raj Dabre,Pushpak Bhattacharyya
発行日 2024-03-21 04:03:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク