文埋め込みモデルは、トピック モデリング、ドキュメント クラスタリング、レコメンデーション システムなど、さまざまな自然言語処理タスクで重要な役割を果たします。
この問題に対処するために、私たちは比較的小さいが人間が生成した高品質の言語間並列データセットをコンパイルして、強力な言語間機能を備えたルクセンブルク語用の強化された文埋め込みモデル \tool をトレーニングします。
さらに、並列トレーニング データセットに低リソース言語を含めることは、高リソース言語ペアのみに依存するよりも他の低リソース言語にとって有利である可能性があることを示唆する証拠を提示します。
Sentence embedding models play a key role in various Natural Language Processing tasks, such as in Topic Modeling, Document Clustering and Recommendation Systems. However, these models rely heavily on parallel data, which can be scarce for many low-resource languages, including Luxembourgish. This scarcity results in suboptimal performance of monolingual and cross-lingual sentence embedding models for these languages. To address this issue, we compile a relatively small but high-quality human-generated cross-lingual parallel dataset to train \tool, an enhanced sentence embedding model for Luxembourgish with strong cross-lingual capabilities. Additionally, we present evidence suggesting that including low-resource languages in parallel training datasets can be more advantageous for other low-resource languages than relying solely on high-resource language pairs. Furthermore, recognizing the lack of sentence embedding benchmarks for low-resource languages, we create a paraphrase detection benchmark specifically for Luxembourgish, aiming to partially fill this gap and promote further research.
著者 | Fred Philippy,Siwen Guo,Jacques Klein,Tegawendé F. Bissyandé |
発行日 | 2024-12-04 14:02:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google