LiNR: Model Based Neural Retrieval on GPUs at LinkedIn

要約

このペーパーでは、LinkedIn の大規模な GPU ベースの検索システムである LiNR について紹介します。
LiNR は、GPU モデルで 10 億サイズのインデックスをサポートします。
TensorFlow と PyTorch を実稼働規模で使用して、スケーラブルで微分可能な検索インデックスを作成する際の経験と課題について説明します。
LiNR では、アイテムとモデルの重みの両方がモデル バイナリに統合されます。
インデックス構築をモデル トレーニングの一種として捉え、フル スキャンと効率的なフィルタリングを組み込んで、大規模なインデックスに合わせてシステムをスケーリングする方法について説明します。
主な焦点は、徹底的な GPU 検索で属性ベースの事前フィルタリングを有効にし、システム品質を低下させることが多い KNN 検索の事後フィルタリングの一般的な課題に対処することです。
さらに、検索におけるコールド スタートの問題に取り組むためのマルチエンベディング検索アルゴリズムと戦略も提供します。
量子化によるより大きなインデックスのサポートにおける進歩についても説明します。
私たちは、LiNR が業界初のライブ更新モデルベースの検索インデックスの 1 つであると考えています。
LinkedIn フィード上のネットワーク外の投稿の推奨に適用された LiNR は、プロフェッショナルの毎日のアクティブ ユーザーの相対的な 3% 増加に貢献しました。
私たちは、LiNR を、取得とランキングを単一の GPU モデルに統合し、複雑なインフラストラクチャを簡素化し、勾配降下法を通じて微分可能なインフラストラクチャ全体のエンドツーエンドの最適化を可能にするためのステップとして構想しています。

要約(オリジナル)

This paper introduces LiNR, LinkedIn’s large-scale, GPU-based retrieval system. LiNR supports a billion-sized index on GPU models. We discuss our experiences and challenges in creating scalable, differentiable search indexes using TensorFlow and PyTorch at production scale. In LiNR, both items and model weights are integrated into the model binary. Viewing index construction as a form of model training, we describe scaling our system for large indexes, incorporating full scans and efficient filtering. A key focus is on enabling attribute-based pre-filtering for exhaustive GPU searches, addressing the common challenge of post-filtering in KNN searches that often reduces system quality. We further provide multi-embedding retrieval algorithms and strategies for tackling cold start issues in retrieval. Our advancements in supporting larger indexes through quantization are also discussed. We believe LiNR represents one of the industry’s first Live-updated model-based retrieval indexes. Applied to out-of-network post recommendations on LinkedIn Feed, LiNR has contributed to a 3% relative increase in professional daily active users. We envisage LiNR as a step towards integrating retrieval and ranking into a single GPU model, simplifying complex infrastructures and enabling end-to-end optimization of the entire differentiable infrastructure through gradient descent.

arxiv情報

著者 Fedor Borisyuk,Qingquan Song,Mingzhou Zhou,Ganesh Parameswaran,Madhu Arun,Siva Popuri,Tugrul Bingol,Zhuotao Pei,Kuang-Hsuan Lee,Lu Zheng,Qizhan Shao,Ali Naqvi,Sen Zhou,Aman Gupta
発行日 2024-08-07 16:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク