Co-design Hardware and Algorithm for Vector Search

要約

ベクトル検索は、大規模な情報検索および機械学習システムの基盤として浮上しており、Google や Bing などの検索エンジンは、エンコードされたクエリ テキストと Web ドキュメント間のベクトルの類似性を評価することにより、ペタバイト規模のドキュメント データセット上で 1 秒あたり数万のクエリを処理します。

ベクトル検索システムに対するパフォーマンスの要求が急増する中、高速化されたハードウェアは、ムーアの法則以降の時代に有望なソリューションを提供します。
FPGA 上のエンドツーエンドでスケーラブルなベクトル検索フレームワークである \textit{FANNS} を紹介します。
データセットに対するユーザー指定のリコール要件とハードウェア リソース バジェットが与えられると、 \textit{FANS} はハードウェアとアルゴリズムを自動的に共同設計し、その後、対応するアクセラレータを生成します。
このフレームワークは、アクセラレータにハードウェア TCP/IP スタックを組み込むことによるスケールアウトもサポートします。
\textit{FANNS} は、FPGA ベースラインと CPU ベースラインと比較して、それぞれ最大 23.0$\times$ と 37.2$\times$ の高速化を達成し、GPU に対して優れたスケーラビリティを実証し、5.5$\times$ と 7.6$\times$ の高速化を実現します。
8 アクセラレータ構成内のレイテンシの中央値と 95\textsuperscript{th} パーセンタイル (P95)。
\textit{FANNS} の驚くべきパフォーマンスは、データセンターや AI スーパーコンピューターにおける将来の FPGA 統合のための強固な基盤を築きます。

要約(オリジナル)

Vector search has emerged as the foundation for large-scale information retrieval and machine learning systems, with search engines like Google and Bing processing tens of thousands of queries per second on petabyte-scale document datasets by evaluating vector similarities between encoded query texts and web documents. As performance demands for vector search systems surge, accelerated hardware offers a promising solution in the post-Moore’s Law era. We introduce \textit{FANNS}, an end-to-end and scalable vector search framework on FPGAs. Given a user-provided recall requirement on a dataset and a hardware resource budget, \textit{FANNS} automatically co-designs hardware and algorithm, subsequently generating the corresponding accelerator. The framework also supports scale-out by incorporating a hardware TCP/IP stack in the accelerator. \textit{FANNS} attains up to 23.0$\times$ and 37.2$\times$ speedup compared to FPGA and CPU baselines, respectively, and demonstrates superior scalability to GPUs, achieving 5.5$\times$ and 7.6$\times$ speedup in median and 95\textsuperscript{th} percentile (P95) latency within an eight-accelerator configuration. The remarkable performance of \textit{FANNS} lays a robust groundwork for future FPGA integration in data centers and AI supercomputers.

arxiv情報

著者 Wenqi Jiang,Shigang Li,Yu Zhu,Johannes de Fine Licht,Zhenhao He,Runbin Shi,Cedric Renggli,Shuai Zhang,Theodoros Rekatsinas,Torsten Hoefler,Gustavo Alonso
発行日 2023-07-06 13:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.IR, cs.LG パーマリンク