VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models

要約

ベクトル検索アルゴリズムは、Large Language Models (LLMs)の進化する状況において、意味クエリに不可欠である。類似性と多様性の両方の基準を同時に満たすベクトルを検索することは、LLMベースのエージェントの能力を著しく向上させる。関連性と多様性が要求される検索シナリオにおいて、最大限界関連性(MMR)が広く用いられているにもかかわらず、MMR内のパラメータ$ \lambda $の変動によって引き起こされる変動は、ベクトル空間における最適化軌道の決定を複雑にし、その結果、強化の方向性が不明瞭になる。さらに、検索過程における類似性と多様性の制約に対するロバストな理論的分析が欠如している。本稿では、総和ベクトルとクエリベクトルの関係を通して、両制約を特徴付ける新しいアプローチを紹介する。これらのベクトルが近接することで、類似性制約に対処する一方、多様性制約を満たすためには、和ベクトル内の個々のベクトルがクエリベクトルと発散的に整列する必要がある。また、我々は新しい組み合わせ最適化の課題を定式化し、それらの和ベクトルがクエリベクトルと最大に整列するような候補の集合から$k$個のベクトルを選択する。これは、ベクトル検索において類似性と多様性を同時に追求することの奥深い難しさを立証し、さらなる研究のための理論的基礎を築くものである。さらに、ヒューリスティックアルゴリズムVectors Retrieval with Similarity and Diversity (VRSD)を提示する。このアルゴリズムは、明確な最適化目標を持ち、プリセットパラメータの必要性を排除するだけでなく、MMRと比較して時間複雑性を適度に低減する。実証検証により、VRSDは様々なデータセットにおいてMMRを大幅に上回ることが確認された。

要約(オリジナル)

Vector retrieval algorithms are vital for semantic queries in the evolving landscape of Large Language Models (LLMs). Retrieving vectors that simultaneously meet criteria for both similarity and diversity significantly enhances the capabilities of LLM-based agents. Despite the widespread use of the Maximal Marginal Relevance (MMR) in retrieval scenarios with relevance and diversity requirements, fluctuations caused by variations in the parameter $ \lambda $ within the MMR complicate the determination of the optimization trajectory in vector spaces, thus obscuring the direction of enhancement. Moreover, there is a lack of a robust theoretical analysis for the constraints of similarity and diversity in retrieval processes. This paper introduces a novel approach to characterizing both constraints through the relationship between the sum vector and the query vector. The proximity of these vectors addresses the similarity constraint, while necessitating that individual vectors within the sum vector divergently align with the query vector to satisfy the diversity constraint. We also formulate a new combinatorial optimization challenge, taking a selection of $k$ vectors from a set of candidates such that their sum vector maximally aligns with the query vector, a problem we demonstrate to be NP-complete. This establishes the profound difficulty of pursuing similarity and diversity simultaneously in vector retrieval and lays a theoretical groundwork for further research. Additionally, we present the heuristic algorithm Vectors Retrieval with Similarity and Diversity (VRSD) which not only has a definitive optimization goal and eschews the need for preset parameters but also offers a modest reduction in time complexity compared to MMR. Empirical validation further confirm that VRSD significantly surpasses MMR across various datasets.

arxiv情報

著者 Hang Gao,Yongfeng Zhang
発行日 2024-07-05 15:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR パーマリンク