IncDSI: Incrementally Updatable Document Retrieval

要約

Differentiable Search Index は、文書検索用に最近提案されたパラダイムで、ニューラル ネットワークのパラメータ内で文書のコーパスに関する情報をエンコードし、クエリを対応する文書に直接マッピングします。
これらのモデルは、多くのベンチマークにわたってドキュメント検索に関して最先端のパフォーマンスを達成しました。
この種のモデルには重大な制限があります。モデルのトレーニング後に新しいドキュメントを追加するのは簡単ではありません。
私たちは、データセット全体 (またはその一部) でモデルを再トレーニングすることなく、リアルタイム (ドキュメントあたり約 20 ~ 50 ミリ秒) でドキュメントを追加する方法である IncDSI を提案します。
代わりに、ドキュメントの追加を、ネットワーク パラメーターに最小限の変更を加える制約付きの最適化問題として定式化します。
桁違いに高速ですが、私たちのアプローチはデータセット全体でモデルを再トレーニングすることに匹敵し、新しい情報でリアルタイムに更新できる文書検索システムの開発を可能にします。
IncDSI のコードは https://github.com/varshakishore/IncDSI で入手できます。

要約(オリジナル)

Differentiable Search Index is a recently proposed paradigm for document retrieval, that encodes information about a corpus of documents within the parameters of a neural network and directly maps queries to corresponding documents. These models have achieved state-of-the-art performances for document retrieval across many benchmarks. These kinds of models have a significant limitation: it is not easy to add new documents after a model is trained. We propose IncDSI, a method to add documents in real time (about 20-50ms per document), without retraining the model on the entire dataset (or even parts thereof). Instead we formulate the addition of documents as a constrained optimization problem that makes minimal changes to the network parameters. Although orders of magnitude faster, our approach is competitive with re-training the model on the whole dataset and enables the development of document retrieval systems that can be updated with new information in real-time. Our code for IncDSI is available at https://github.com/varshakishore/IncDSI.

arxiv情報

著者 Varsha Kishore,Chao Wan,Justin Lovelace,Yoav Artzi,Kilian Q. Weinberger
発行日 2024-08-19 07:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク