要約
最近の大規模言語モデル (LLM) は、汎用のテキスト埋め込みタスクで優れたパフォーマンスを実証しています。
高密度埋め込みが関連研究の大半を占めてきましたが、これらのタスクで競争力のあるパフォーマンスを達成する LLM を活用した初の Lexicon ベースの EmbeddiNgS (LENS) を紹介します。
従来の因果的 LLM における固有のトークン化の冗長性の問題と一方向の注意の制限に関して、LENS はトークン埋め込みクラスタリングを通じて語彙空間を統合し、双方向の注意とさまざまなプーリング戦略を調査します。
具体的には、LENS は、意味的に類似したトークンがグループ化される特定のトークン クラスターに各次元を割り当て、双方向の注意を通じて LLM の可能性を最大限に引き出すことにより、語彙のマッチングを簡素化します。
広範な実験により、LENS が Massive Text Embedding Benchmark (MTEB) で高密度埋め込みよりも優れたパフォーマンスを示し、高密度埋め込みのサイズに一致するコンパクトな特徴表現を実現することが実証されました。
特に、LENSE と高密度埋め込みを組み合わせることで、MTEB の検索サブセット (つまり BEIR) で最先端のパフォーマンスが達成されます。
要約(オリジナル)
Recent large language models (LLMs) have demonstrated exceptional performance on general-purpose text embedding tasks. While dense embeddings have dominated related research, we introduce the first Lexicon-based EmbeddiNgS (LENS) leveraging LLMs that achieve competitive performance on these tasks. Regarding the inherent tokenization redundancy issue and unidirectional attention limitations in traditional causal LLMs, LENS consolidates the vocabulary space through token embedding clustering, and investigates bidirectional attention and various pooling strategies. Specifically, LENS simplifies lexicon matching by assigning each dimension to a specific token cluster, where semantically similar tokens are grouped together, and unlocking the full potential of LLMs through bidirectional attention. Extensive experiments demonstrate that LENS outperforms dense embeddings on the Massive Text Embedding Benchmark (MTEB), delivering compact feature representations that match the sizes of dense counterparts. Notably, combining LENSE with dense embeddings achieves state-of-the-art performance on the retrieval subset of MTEB (i.e. BEIR).
arxiv情報
著者 | Yibin Lei,Tao Shen,Yu Cao,Andrew Yates |
発行日 | 2025-01-16 18:57:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google