要約
埋め込みモデルは、自然言語処理(NLP)において、情報検索や意味的なテキストの類似性の評価など、様々なタスクで使用されるテキストの埋め込みを作成することで、重要な役割を果たしている。本稿では、ロシア語の埋め込みモデルに関する研究に焦点を当てる。ロシア語に特化した新しい埋め込みモデルru-en-RoSBERTaと、ロシア語版のMassive Text Embedding Benchmark (MTEB)を拡張したruMTEBベンチマークを紹介する。このベンチマークには、意味的テキスト類似性、テキスト分類、再ランク付け、検索など、7つのタスクカテゴリが含まれる。また、提案されたベンチマークにおいて、ロシア語と多言語モデルの代表的なセットを評価する。その結果、新しいモデルはロシア語において最先端のモデルと同等の結果を達成することが示された。我々はモデルru-en-RoSBERTaを公開し、ruMTEBフレームワークにはオープンソースコード、オリジナルフレームワークへの統合、公開リーダーボードが付属している。
要約(オリジナル)
Embedding models play a crucial role in Natural Language Processing (NLP) by creating text embeddings used in various tasks such as information retrieval and assessing semantic text similarity. This paper focuses on research related to embedding models in the Russian language. It introduces a new Russian-focused embedding model called ru-en-RoSBERTa and the ruMTEB benchmark, the Russian version extending the Massive Text Embedding Benchmark (MTEB). Our benchmark includes seven categories of tasks, such as semantic textual similarity, text classification, reranking, and retrieval.The research also assesses a representative set of Russian and multilingual models on the proposed benchmark. The findings indicate that the new model achieves results that are on par with state-of-the-art models in Russian. We release the model ru-en-RoSBERTa, and the ruMTEB framework comes with open-source code, integration into the original framework and a public leaderboard.
arxiv情報
著者 | Artem Snegirev,Maria Tikhonova,Anna Maksimova,Alena Fenogenova,Alexander Abramov |
発行日 | 2025-02-03 12:53:11+00:00 |
arxivサイト | arxiv_id(pdf) |