VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models

要約

ベクトル検索アルゴリズムは、急速に進化する大規模言語モデル (LLM) 環境におけるセマンティック クエリに不可欠です。
類似性と多様性の両方の基準を満たすベクトルを検索する機能により、LLM のパフォーマンスが大幅に向上します。
Maximal Marginal Relevance (MMR) は関連性と多様性を必要とする検索シナリオで広く採用されていますが、パラメーター $\lambda$ の変動により変動が生じ、ベクトル空間での最適化軌道が複雑になります。
これは改善の方向性を曖昧にし、検索プロセスにおける類似性と多様性の制約に関する堅牢な理論分析の欠如を浮き彫りにします。
これらの課題に対処するために、この論文では、合計ベクトルとクエリ ベクトルの関係を通じて両方の制約を特徴付ける新しいアプローチを紹介します。
これらのベクトルの近接性により類似性制約が保証されますが、合計ベクトル内の個々のベクトルがクエリ ベクトルとの位置合わせにおいて発散する必要があるため、多様性制約が満たされます。
まず、新しい組み合わせ最適化問題を定式化し、合計ベクトルがクエリ ベクトルと最大限に一致するように候補セットから k ベクトルを選択し、この問題が NP 完全であることを示します。
この結果は、ベクトル検索において類似性と多様性を同時に達成することの本質的な難しさを強調しており、それによって将来の研究のための理論的基盤を提供します。
続いて、ヒューリスティック アルゴリズムである類似性と多様性を備えたベクトル検索 (VRSD) を紹介します。このアルゴリズムは、明確な最適化目標を特徴としており、事前に設定されたパラメーターの必要性を排除します。
VRSD は、MMR と比較して時間の複雑さもある程度軽減されます。
経験的検証により、VRSD はさまざまなデータセットにわたって MMR よりも大幅に優れていることが確認されています。

要約(オリジナル)

Vector retrieval algorithms are essential for semantic queries within the rapidly evolving landscape of Large Language Models (LLMs). The ability to retrieve vectors that satisfy both similarity and diversity criteria substantially enhances the performance of LLMs. Although Maximal Marginal Relevance (MMR) is widely employed in retrieval scenarios requiring relevance and diversity, variations in the parameter $\lambda$ lead to fluctuations that complicate the optimization trajectory in vector spaces. This obscures the direction of improvement and highlights the lack of a robust theoretical analysis regarding similarity and diversity constraints in retrieval processes. To address these challenges, this paper introduces a novel approach that characterizes both constraints through the relationship between the sum vector and the query vector. The proximity of these vectors ensures the similarity constraint, while requiring individual vectors within the sum vector to diverge in their alignment with the query vector satisfies the diversity constraint. We first formulate a new combinatorial optimization problem, selecting k vectors from a candidate set such that their sum vector maximally aligns with the query vector, and demonstrate that this problem is NP-complete. This result underscores the inherent difficulty of simultaneously achieving similarity and diversity in vector retrieval, thereby providing a theoretical foundation for future research. Subsequently, we present the heuristic algorithm Vectors Retrieval with Similarity and Diversity, VRSD, which features a clear optimization objective and eliminates the need for preset parameters. VRSD also achieves a modest reduction in time complexity compared to MMR. Empirical validation confirms that VRSD significantly outperforms MMR across various datasets.

arxiv情報

著者 Hang Gao,Yongfeng Zhang
発行日 2024-11-14 18:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク