PL-MTEB: Polish Massive Text Embedding Benchmark

要約

このペーパーでは、ポーランド語のテキスト埋め込みの包括的なベンチマークであるポーランド語大規模テキスト埋め込みベンチマーク (PL-MTEB) を紹介します。
PL-MTEB は、5 つのタスク タイプからなる 28 の多様な NLP タスクで構成されます。
私たちは、ポーランドの NLP コミュニティによって以前に使用されたデータセットに基づいてタスクを調整しました。
さらに、ポーランド語の科学出版物のタイトルと要約で構成される新しい PLSC (ポーランド科学図書館コーパス) データセットを作成し、これを 2 つの新しいクラスタリング タスクの基礎として使用しました。
私たちは、ポーランド語や多言語のモデルを含む 15 の公開されているテキスト埋め込みモデルを評価し、個々のタスクの詳細な結果と、各タスク タイプとベンチマーク全体の集計結果を収集しました。
PL-MTEB には、https://github.com/rafalposwiata/pl-mteb にあるオープンソース コードが付属しています。

要約(オリジナル)

In this paper, we introduce the Polish Massive Text Embedding Benchmark (PL-MTEB), a comprehensive benchmark for text embeddings in Polish. The PL-MTEB consists of 28 diverse NLP tasks from 5 task types. We adapted the tasks based on previously used datasets by the Polish NLP community. In addition, we created a new PLSC (Polish Library of Science Corpus) dataset consisting of titles and abstracts of scientific publications in Polish, which was used as the basis for two novel clustering tasks. We evaluated 15 publicly available models for text embedding, including Polish and multilingual ones, and collected detailed results for individual tasks and aggregated results for each task type and the entire benchmark. PL-MTEB comes with open-source code at https://github.com/rafalposwiata/pl-mteb.

arxiv情報

著者 Rafał Poświata,Sławomir Dadas,Michał Perełkiewicz
発行日 2024-05-16 14:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク