GenEOL: Harnessing the Generative Power of LLMs for Training-Free Sentence Embeddings

要約

トレーニング不要の埋め込み手法では、事前トレーニング済みの大規模言語モデル (LLM) を直接利用してテキストを埋め込み、コストのかかる複雑な対比学習手順を回避します。
これまでのトレーニング不要の埋め込み手法は、主に埋め込みプロンプトの最適化に焦点を当てており、LLM の生成能力を利用する利点を見落としてきました。
我々は、LLM を使用して文の意味を保持する文のさまざまな変換を生成し、これらの変換の結果として得られる埋め込みを集約して、文全体の埋め込みを強化する新しい方法 GenEOL を提案します。
GenEOL は、文意味テキスト類似性 (STS) ベンチマークにおいて、複数の LLM 全体で平均 2.85 ポイント、既存のトレーニング不要の埋め込み手法を大幅に上回っています。
私たちの分析は、GenEOL が LLM 層全体で表現品質を安定させ、埋め込みプロンプトの摂動に対して堅牢であることを示しています。
GenEOL は、複数のクラスタリング、再ランキング、およびペア分類タスクでも MTEB ベンチマークから顕著な向上を達成しています。

要約(オリジナル)

Training-free embedding methods directly leverage pretrained large language models (LLMs) to embed text, bypassing the costly and complex procedure of contrastive learning. Previous training-free embedding methods have mainly focused on optimizing embedding prompts and have overlooked the benefits of utilizing the generative abilities of LLMs. We propose a novel method, GenEOL, which uses LLMs to generate diverse transformations of a sentence that preserve its meaning, and aggregates the resulting embeddings of these transformations to enhance the overall sentence embedding. GenEOL significantly outperforms the existing training-free embedding methods by an average of 2.85 points across several LLMs on the sentence semantic text similarity (STS) benchmark. Our analysis shows that GenEOL stabilizes representation quality across LLM layers and is robust to perturbations of embedding prompts. GenEOL also achieves notable gains on multiple clustering, reranking and pair-classification tasks from the MTEB benchmark.

arxiv情報

著者 Raghuveer Thirukovalluru,Bhuwan Dhingra
発行日 2024-10-18 17:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク