Multivariate Representation Learning for Information Retrieval

要約

タイトル – 情報検索のための多変量表現学習
要約 –
– バイエンコーダネットワークアーキテクチャを使用した密集型検索モデルは、問い合わせとドキュメントの表現を学習するために使用されます。
– これらの表現は、ベクトル表現の形で表され、その類似性は通常ドットプロダクト関数を使用して計算されます。
– 本論文では、密集型検索のための新しい表現学習フレームワークを提案しています。
– 各問い合わせとドキュメントのためにベクトルを学習するのではなく、マルチバリエート分布を学習し、負のマルチバリエートKLダイバージェンスを使用して分布間の類似性を計算することをフレームワークで提案しています。
– 単純さと効率性のために、分布はマルチバリエート正規分布であると仮定し、大規模な言語モデルをトレーニングしてこれらの分布の平均と分散ベクトルを生成します。
– 提案されたフレームワークの理論的基盤を提供し、既存の近似最近傍アルゴリズムにシームレスに統合して、検索を効率的に実行できることを示します。
– 広範なデータセットでの実験を行い、競合する密集型検索モデルと比較して、大幅な改善が見られました。

要約(オリジナル)

Dense retrieval models use bi-encoder network architectures for learning query and document representations. These representations are often in the form of a vector representation and their similarities are often computed using the dot product function. In this paper, we propose a new representation learning framework for dense retrieval. Instead of learning a vector for each query and document, our framework learns a multivariate distribution and uses negative multivariate KL divergence to compute the similarity between distributions. For simplicity and efficiency reasons, we assume that the distributions are multivariate normals and then train large language models to produce mean and variance vectors for these distributions. We provide a theoretical foundation for the proposed framework and show that it can be seamlessly integrated into the existing approximate nearest neighbor algorithms to perform retrieval efficiently. We conduct an extensive suite of experiments on a wide range of datasets, and demonstrate significant improvements compared to competitive dense retrieval models.

arxiv情報

著者 Hamed Zamani,Michael Bendersky
発行日 2023-04-27 20:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク