Language Models are Universal Embedders

要約

大規模言語モデル (LLM) 革命において、埋め込みはさまざまなシステムの重要なコンポーネントです。
たとえば、LLM の知識や記憶を取得したり、コンテンツ モデレーション フィルターを構築したりするために使用されます。このようなケースは、英語から他の自然言語やプログラミング言語にまで、検索から分類、さらにその先にまで及ぶため、統一された埋め込みを構築することが望ましいです。
各シナリオに専用のモデルではなく、モデルを使用します。
この研究では、この目標に向けた最初の一歩を踏み出し、複数の言語 (自然言語とプログラミングの両方) で事前にトレーニングされた変換デコーダーが、限られた英語データで微調整された場合に普遍的に埋め込むことができることを実証しました。
徹底した評価をもとに総合的な施術を提供します。
英語 MTEB では、当社のモデルは最小限のトレーニング データにより、さまざまな埋め込みタスクで競争力のあるパフォーマンスを達成します。
多言語分類やコード検索などの他のベンチマークでは、当社のモデルは (監視なしで) 厳しく監視されたベースラインや API と同等、またはそれを上回るパフォーマンスを発揮します。
これらの結果は、タスクや言語を超えて適用できる強力な統合エンベッダーの構築に向けた有望な道筋の証拠を提供します。

要約(オリジナル)

In the large language model (LLM) revolution, embedding is a key component of various systems. For example, it is used to retrieve knowledge or memories for LLMs, to build content moderation filters, etc. As such cases span from English to other natural or programming languages, from retrieval to classification and beyond, it is desirable to build a unified embedding model rather than dedicated ones for each scenario. In this work, we make an initial step towards this goal, demonstrating that multiple languages (both natural and programming) pre-trained transformer decoders can embed universally when finetuned on limited English data. We provide a comprehensive practice with thorough evaluations. On English MTEB, our models achieve competitive performance on different embedding tasks by minimal training data. On other benchmarks, such as multilingual classification and code search, our models (without any supervision) perform comparably to, or even surpass heavily supervised baselines and/or APIs. These results provide evidence of a promising path towards building powerful unified embedders that can be applied across tasks and languages.

arxiv情報

著者 Xin Zhang,Zehan Li,Yanzhao Zhang,Dingkun Long,Pengjun Xie,Meishan Zhang,Min Zhang
発行日 2023-10-12 11:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク