A General-Purpose Multilingual Document Encoder

要約

大規模多言語事前学習変換器(MMT)は、多言語NLP、特にNLPモデルのクロスリンガル転送に関する技術水準を飛躍的に向上させてきた。多くの研究が、並列データのマイニングや対訳文書の埋め込みにMMTを活用している一方で、教師あり・教師なしの文書レベルのタスクに使用できる汎用的な(大規模な)多言語文書エンコーダのトレーニングに費やされた努力は、はるかに少なかった。本研究では、多言語文書エンコーダを階層変換モデル(HMDE)として事前学習し、浅い文書変換器が、最先端の事前学習済み多言語文書エンコーダが生成した文表現を文脈化する。学習データの作成には、比較可能な文書の入手が容易なWikipediaを活用し、さらにWikipediaのカテゴリ階層を利用して困難な否定語を作成することで、異言語対照の目的によってHMDEを訓練する。(1)トピック文書分類のためのクロスリンガル転送、(2)クロスリンガル文書検索という、間違いなく最も一般的で著名なクロスリンガル文書レベルのタスクでHMDEの有効性を評価する。HMDEは、(i)セグメントベースの表現の集約や(ii)多言語Longformerよりも著しく効果的である。また、HMDEは、多言語下位変換器により、文書レベルの事前学習で見たことのない言語への汎化に成功しました。私たちのコードとモデルは、https://github.com/ogaloglu/pre-training-multilingual-document-encoders で公開されています。

要約(オリジナル)

Massively multilingual pretrained transformers (MMTs) have tremendously pushed the state of the art on multilingual NLP and cross-lingual transfer of NLP models in particular. While a large body of work leveraged MMTs to mine parallel data and induce bilingual document embeddings, much less effort has been devoted to training general-purpose (massively) multilingual document encoder that can be used for both supervised and unsupervised document-level tasks. In this work, we pretrain a massively multilingual document encoder as a hierarchical transformer model (HMDE) in which a shallow document transformer contextualizes sentence representations produced by a state-of-the-art pretrained multilingual sentence encoder. We leverage Wikipedia as a readily available source of comparable documents for creating training data, and train HMDE by means of a cross-lingual contrastive objective, further exploiting the category hierarchy of Wikipedia for creation of difficult negatives. We evaluate the effectiveness of HMDE in two arguably most common and prominent cross-lingual document-level tasks: (1) cross-lingual transfer for topical document classification and (2) cross-lingual document retrieval. HMDE is significantly more effective than (i) aggregations of segment-based representations and (ii) multilingual Longformer. Crucially, owing to its massively multilingual lower transformer, HMDE successfully generalizes to languages unseen in document-level pretraining. We publicly release our code and models at https://github.com/ogaloglu/pre-training-multilingual-document-encoders .

arxiv情報

著者 Onur Galoğlu,Robert Litschko,Goran Glavaš
発行日 2023-05-11 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク