Semi-Parametric Retrieval via Binary Token Index

要約

情報検索は、検索サービスから様々な高度なアプリケーションの重要な構成要素へと広がりを見せており、インデックスの効率性、費用対効果、鮮度がますます重要になってきているが、まだあまり研究されていない。このような要求に対処するために、我々はセミパラメトリック語彙分離検索(SVDR)を導入する。SVDRは、2種類のインデックスをサポートする新しいセミパラメトリック検索フレームワークである。既存のニューラル検索手法に似た、高い有効性を持つ埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速でコスト効率の良いセットアップを可能にするバイナリトークンインデックスである。ウィキペディア全体を検索コーパスとして、3つのオープンドメインの質問応答ベンチマークで評価したところ、SVDRは一貫して優位性を示した。SVDRは、エンベッディングベースのインデックスを使用した場合、高密度検索DPRと比較してトップ1の検索精度が3%高く、バイナリトークンインデックスを使用した場合、BM25と比較してトップ1の検索精度が9%高い。具体的には、バイナリートークンインデックスを採用することで、インデックス作成時間を30GPU時間からわずか2CPU時間に、ストレージサイズを31GBから2GBに削減し、エンベッディングベースのインデックスと比較して90%の削減を達成している。

要約(オリジナル)

The landscape of information retrieval has broadened from search services to a critical component in various advanced applications, where indexing efficiency, cost-effectiveness, and freshness are increasingly important yet remain less explored. To address these demands, we introduce Semi-parametric Vocabulary Disentangled Retrieval (SVDR). SVDR is a novel semi-parametric retrieval framework that supports two types of indexes: an embedding-based index for high effectiveness, akin to existing neural retrieval methods; and a binary token index that allows for quick and cost-effective setup, resembling traditional term-based retrieval. In our evaluation on three open-domain question answering benchmarks with the entire Wikipedia as the retrieval corpus, SVDR consistently demonstrates superiority. It achieves a 3% higher top-1 retrieval accuracy compared to the dense retriever DPR when using an embedding-based index and an 9% higher top-1 accuracy compared to BM25 when using a binary token index. Specifically, the adoption of a binary token index reduces index preparation time from 30 GPU hours to just 2 CPU hours and storage size from 31 GB to 2 GB, achieving a 90% reduction compared to an embedding-based index.

arxiv情報

著者 Jiawei Zhou,Li Dong,Furu Wei,Lei Chen
発行日 2024-05-03 08:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク