LuxEmbedder: A Cross-Lingual Approach to Enhanced Luxembourgish Sentence Embeddings

要約

文埋め込みモデルは、トピック モデリング、ドキュメント クラスタリング、レコメンデーション システムなど、さまざまな自然言語処理タスクで重要な役割を果たします。
ただし、これらのモデルは並列データに大きく依存しており、ルクセンブルク語を含む多くの低リソース言語では並列データが不足している可能性があります。
この不足により、これらの言語の単一言語および複数言語の文埋め込みモデルのパフォーマンスが最適化されません。
この問題に対処するために、私たちは比較的小さいが人間が生成した高品質の言語間並列データセットをコンパイルして、強力な言語間機能を備えたルクセンブルク語用の強化された文埋め込みモデルである LuxEmbedder をトレーニングします。
さらに、並列トレーニング データセットに低リソース言語を含めることは、高リソース言語ペアのみに依存するよりも他の低リソース言語にとって有利である可能性があることを示唆する証拠を提示します。
さらに、低リソース言語向けの文埋め込みベンチマークが不足していることを認識し、このギャップを部分的に埋めてさらなる研究を促進することを目的として、ルクセンブルク語に特化した言い換え検出ベンチマークを作成しました。

要約(オリジナル)

Sentence embedding models play a key role in various Natural Language Processing tasks, such as in Topic Modeling, Document Clustering and Recommendation Systems. However, these models rely heavily on parallel data, which can be scarce for many low-resource languages, including Luxembourgish. This scarcity results in suboptimal performance of monolingual and cross-lingual sentence embedding models for these languages. To address this issue, we compile a relatively small but high-quality human-generated cross-lingual parallel dataset to train LuxEmbedder, an enhanced sentence embedding model for Luxembourgish with strong cross-lingual capabilities. Additionally, we present evidence suggesting that including low-resource languages in parallel training datasets can be more advantageous for other low-resource languages than relying solely on high-resource language pairs. Furthermore, recognizing the lack of sentence embedding benchmarks for low-resource languages, we create a paraphrase detection benchmark specifically for Luxembourgish, aiming to partially fill this gap and promote further research.

arxiv情報

著者 Fred Philippy,Siwen Guo,Jacques Klein,Tegawendé F. Bissyandé
発行日 2024-12-05 07:05:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク