C-Pack: Packaged Resources To Advance General Chinese Embedding

要約

一般的な中国語埋め込みの分野を大幅に進歩させるリソースのパッケージである C-Pack を紹介します。
C-Pack には 3 つの重要なリソースが含まれています。
1) C-MTEB は、6 つのタスクと 35 のデータセットをカバーする中国語テキスト埋め込みの包括的なベンチマークです。
2) C-MTP は、埋め込みモデルをトレーニングするために、ラベル付きおよびラベルなしの中国語コーパスから厳選された大規模なテキスト埋め込みデータセットです。
3) C-TEM は、複数のサイズをカバーする埋め込みモデルのファミリーです。
当社のモデルは、リリース時点で、C-MTEB 上の以前のすべての中国語テキスト埋め込みよりも最大 +10% 優れたパフォーマンスを発揮します。
また、C-TEM 用の一連のトレーニング方法全体を統合し、最適化します。
一般的な中国語埋め込みに関するリソースに加えて、英語テキスト埋め込みのデータとモデルをリリースします。
英語モデルは、MTEB ベンチマークで最先端のパフォーマンスを達成します。
一方、私たちが公開した英語のデータは中国語のデータの 2 倍の大きさです。
これらのリソースはすべて、https://github.com/FlagOpen/FlagEmbedding で公開されています。

要約(オリジナル)

We introduce C-Pack, a package of resources that significantly advance the field of general Chinese embeddings. C-Pack includes three critical resources. 1) C-MTEB is a comprehensive benchmark for Chinese text embeddings covering 6 tasks and 35 datasets. 2) C-MTP is a massive text embedding dataset curated from labeled and unlabeled Chinese corpora for training embedding models. 3) C-TEM is a family of embedding models covering multiple sizes. Our models outperform all prior Chinese text embeddings on C-MTEB by up to +10% upon the time of the release. We also integrate and optimize the entire suite of training methods for C-TEM. Along with our resources on general Chinese embedding, we release our data and models for English text embeddings. The English models achieve state-of-the-art performance on MTEB benchmark; meanwhile, our released English data is 2 times larger than the Chinese data. All these resources are made publicly available at https://github.com/FlagOpen/FlagEmbedding.

arxiv情報

著者 Shitao Xiao,Zheng Liu,Peitian Zhang,Niklas Muennighoff
発行日 2023-12-15 05:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク