要約
情報検索は、検索サービスから様々な高度なアプリケーションの重要な構成要素へと広がりを見せており、インデックスの効率性、費用対効果、鮮度がますます重要になってきているが、まだあまり研究されていない。このような要求に対処するために、我々はセミパラメトリック語彙分離検索(SVDR)を導入する。SVDRは、2種類のインデックスをサポートする新しいセミパラメトリック検索フレームワークである。既存のニューラル検索手法に似た、高い有効性を持つ埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速でコスト効率の良いセットアップを可能にするバイナリトークンインデックスである。ウィキペディア全体を検索コーパスとして、3つのオープンドメインの質問応答ベンチマークで評価したところ、SVDRは一貫して優位性を示した。SVDRは、エンベッディングベースのインデックスを使用した場合、高密度検索DPRと比較してトップ1の検索精度が3%高く、バイナリトークンインデックスを使用した場合、BM25と比較してトップ1の検索精度が9%高い。具体的には、バイナリートークンインデックスを採用することで、インデックス作成時間を30GPU時間からわずか2CPU時間に、ストレージサイズを31GBから2GBに削減し、エンベッディングベースのインデックスと比較して90%の削減を達成している。
要約(オリジナル)
The landscape of information retrieval has broadened from search services to a critical component in various advanced applications, where indexing efficiency, cost-effectiveness, and freshness are increasingly important yet remain less explored. To address these demands, we introduce Semi-parametric Vocabulary Disentangled Retrieval (SVDR). SVDR is a novel semi-parametric retrieval framework that supports two types of indexes: an embedding-based index for high effectiveness, akin to existing neural retrieval methods; and a binary token index that allows for quick and cost-effective setup, resembling traditional term-based retrieval. In our evaluation on three open-domain question answering benchmarks with the entire Wikipedia as the retrieval corpus, SVDR consistently demonstrates superiority. It achieves a 3% higher top-1 retrieval accuracy compared to the dense retriever DPR when using an embedding-based index and an 9% higher top-1 accuracy compared to BM25 when using a binary token index. Specifically, the adoption of a binary token index reduces index preparation time from 30 GPU hours to just 2 CPU hours and storage size from 31 GB to 2 GB, achieving a 90% reduction compared to an embedding-based index.
arxiv情報
著者 | Jiawei Zhou,Li Dong,Furu Wei,Lei Chen |
発行日 | 2024-05-03 08:34:13+00:00 |
arxivサイト | arxiv_id(pdf) |