The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design

要約

埋め込みモデルは、情報検索やセマンティック テキストの類似性の評価などのさまざまなタスクで使用されるテキスト埋め込みを作成することにより、自然言語処理 (NLP) において重要な役割を果たします。
この論文は、ロシア語の埋め込みモデルに関連する研究に焦点を当てています。
ru-en-RoSBERTa と呼ばれる、ロシアに焦点を当てた新しい埋め込みモデルと、Massive Text Embedding Benchmark (MTEB) を拡張したロシア語版 ruMTEB ベンチマークが導入されています。
私たちのベンチマークには、意味論的なテキストの類似性、テキストの分類、再ランキング、検索などの 7 つのカテゴリのタスクが含まれています。
この調査では、提案されたベンチマークに基づいて、ロシア語および多言語モデルの代表的なセットも評価されています。
この調査結果は、新しいモデルがロシアの最先端モデルと同等の結果を達成していることを示しています。
私たちは ru-en-RoSBERTa モデルをリリースしており、ruMTEB フレームワークにはオープンソース コード、元のフレームワークへの統合、および公開リーダーボードが付属しています。

要約(オリジナル)

Embedding models play a crucial role in Natural Language Processing (NLP) by creating text embeddings used in various tasks such as information retrieval and assessing semantic text similarity. This paper focuses on research related to embedding models in the Russian language. It introduces a new Russian-focused embedding model called ru-en-RoSBERTa and the ruMTEB benchmark, the Russian version extending the Massive Text Embedding Benchmark (MTEB). Our benchmark includes seven categories of tasks, such as semantic textual similarity, text classification, reranking, and retrieval. The research also assesses a representative set of Russian and multilingual models on the proposed benchmark. The findings indicate that the new model achieves results that are on par with state-of-the-art models in Russian. We release the model ru-en-RoSBERTa, and the ruMTEB framework comes with open-source code, integration into the original framework and a public leaderboard.

arxiv情報

著者 Artem Snegirev,Maria Tikhonova,Anna Maksimova,Alena Fenogenova,Alexander Abramov
発行日 2024-08-22 15:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク