L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence representations using multilingual BERT

要約

タイトル:L3Cube-IndicSBERT:多言語BERTを使用したクロス言語文表現の学習のためのシンプルなアプローチ

要約:

– SBERTモデルは、異なる言語を共通の表現空間にマップすることができ、クロス言語の類似性やマイニングタスクに有用である。
– 我々は、合成コーパスを用いて、単純かつ効果的なアプローチを提案している。
– このアプローチでは、目標言語の低リソースなデータセットを翻訳し、NLIまたはSTSのデータセットにまとめ、SBERT風のファインチューニングを行うことで、多言語BERTモデルを多言語文BERTモデルに変換する。
– 多言語BERTモデルは、固有のクロス言語学習機能を持っており、明示的なクロス言語トレーニングなしで、この単純なベースラインのファインチューニングアプローチでも、優れたクロス言語特性を示すことができる。
– 本アプローチの有効性を、10の主要なインド言語、ドイツ語、フランス語について示し、インド言語のHindi、Marathi、Kannada、Telugu、Malayalam、Tamil、Gujarati、Odia、Bengali、Punjabi向けに、最初のマルチリンガル文表記モデルであるL3Cube-IndicSBERTを提供する。
– IndicSBERTは強力なクロス言語機能を持ち、インド言語のクロス言語および単言語の文の類似性タスクにおいて、LaBSE、LASER、paraphrase-multilingual-mpnet-base-v2などの代替手段よりも有意に優れた成績を収める。
– また、各言語ごとに単言語SBERTモデルもリリースし、IndicSBERTが単言語の対応モデルと競合性のある性能を発揮することを示した。これらのモデルは、埋め込みの類似性スコアと分類精度で評価された。

要約(オリジナル)

The multilingual Sentence-BERT (SBERT) models map different languages to common representation space and are useful for cross-language similarity and mining tasks. We propose a simple yet effective approach to convert vanilla multilingual BERT models into multilingual sentence BERT models using synthetic corpus. We simply aggregate translated NLI or STS datasets of the low-resource target languages together and perform SBERT-like fine-tuning of the vanilla multilingual BERT model. We show that multilingual BERT models are inherent cross-lingual learners and this simple baseline fine-tuning approach without explicit cross-lingual training yields exceptional cross-lingual properties. We show the efficacy of our approach on 10 major Indic languages and also show the applicability of our approach to non-Indic languages German and French. Using this approach, we further present L3Cube-IndicSBERT, the first multilingual sentence representation model specifically for Indian languages Hindi, Marathi, Kannada, Telugu, Malayalam, Tamil, Gujarati, Odia, Bengali, and Punjabi. The IndicSBERT exhibits strong cross-lingual capabilities and performs significantly better than alternatives like LaBSE, LASER, and paraphrase-multilingual-mpnet-base-v2 on Indic cross-lingual and monolingual sentence similarity tasks. We also release monolingual SBERT models for each of the languages and show that IndicSBERT performs competitively with its monolingual counterparts. These models have been evaluated using embedding similarity scores and classification accuracy.

arxiv情報

著者 Samruddhi Deode,Janhavi Gadre,Aditi Kajale,Ananya Joshi,Raviraj Joshi
発行日 2023-04-22 15:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク