VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning

要約

タイトル:VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning(VECO 2.0:多層階層対照学習によるクロスリンガル言語モデルの事前トレーニング)

要約:
– クロスリンガル転移の可能性が示されているが、トークンレベルタスクにおいて、文間の関連性の確立よりも、バイリンガルコーパスにある同義語のペアの利用と対応付けがより重要である。
– この研究では、VECO 2.0というクロスリンガル事前学習モデルを提案し、マスクされた言語モデルに加え、多層階層対照学習を組み合わせる。
– まず、シーケンス対シーケンスの対照学習により並列ペアの類似性を最大化し、非並列ペアの類似性を最小化することでシーケンス間の対応性を誘導する。
– 次に、同義語辞書から発掘された類義のトークンと、バイリンガルインスタンス中の他の非対応トークンを結びつけるために、トークン対トークンの対応付けを統合する。
– XTREMEベンチマークでクロスリンガルモデルの事前学習の効果を実験的に示した。

要約(オリジナル)

Recent studies have demonstrated the potential of cross-lingual transferability by training a unified Transformer encoder for multiple languages. In addition to involving the masked language model objective, existing cross-lingual pre-training works leverage sentence-level contrastive learning or plugs in extra cross-attention module to complement the insufficient capabilities of cross-lingual alignment. Nonetheless, synonym pairs residing in bilingual corpus are not exploited and aligned, which is more crucial than sentence interdependence establishment for token-level tasks. In this work, we propose a cross-lingual pre-trained model VECO~2.0 based on contrastive learning with multi-granularity alignments. Specifically, the sequence-to-sequence alignment is induced to maximize the similarity of the parallel pairs and minimize the non-parallel pairs. Then, token-to-token alignment is integrated to bridge the gap between synonymous tokens excavated via the thesaurus dictionary from the other unpaired tokens in a bilingual instance. Experiments show the effectiveness of the proposed strategy for cross-lingual model pre-training on the XTREME benchmark.

arxiv情報

著者 Zhen-Ru Zhang,Chuanqi Tan,Songfang Huang,Fei Huang
発行日 2023-04-17 12:23:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク