要約
LASER、SBERT-distill、LaBSE などの大規模な多言語文表現モデルは、言語を越えた下流タスクを大幅に改善するのに役立ちます。
ただし、大量のデータや非効率なモデル アーキテクチャを使用すると、好みの言語やドメインに従って新しいモデルをトレーニングするために大量の計算が必要になります。
この問題を解決するために、トレーニング目標として異言語トークンレベル再構成 (XTR) と文レベルの対照学習を使用した、効率的かつ効果的な大規模多言語文埋め込み (EMS) を導入します。
関連する研究と比較して、提案されたモデルは、大幅に少ない並列文と GPU 計算リソースを使用して効率的にトレーニングできます。
経験的な結果は、提案されたモデルが、言語を越えた文の検索、ゼロショットの言語を越えたジャンル分類、感情分類に関して、より優れた、または同等の結果を大幅に生み出すことを示しました。
アブレーティブ解析により、提案されたモデルの各コンポーネントの効率と有効性が実証されました。
モデルトレーニング用のコードと、62言語をサポートするEMS事前トレーニング済み文埋め込みモデルを公開しています( https://github.com/Mao-KU/EMS )。
要約(オリジナル)
Massively multilingual sentence representation models, e.g., LASER, SBERT-distill, and LaBSE, help significantly improve cross-lingual downstream tasks. However, the use of a large amount of data or inefficient model architectures results in heavy computation to train a new model according to our preferred languages and domains. To resolve this issue, we introduce efficient and effective massively multilingual sentence embedding (EMS), using cross-lingual token-level reconstruction (XTR) and sentence-level contrastive learning as training objectives. Compared with related studies, the proposed model can be efficiently trained using significantly fewer parallel sentences and GPU computation resources. Empirical results showed that the proposed model significantly yields better or comparable results with regard to cross-lingual sentence retrieval, zero-shot cross-lingual genre classification, and sentiment classification. Ablative analyses demonstrated the efficiency and effectiveness of each component of the proposed model. We release the codes for model training and the EMS pre-trained sentence embedding model, which supports 62 languages ( https://github.com/Mao-KU/EMS ).
arxiv情報
著者 | Zhuoyuan Mao,Chenhui Chu,Sadao Kurohashi |
発行日 | 2024-05-30 16:40:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google