Bridging the Gap Between Indexing and Retrieval for Differentiable Search Index with Query Generation

要約

Differentiable Search Index (DSI) は、情報検索のための新たなパラダイムです。
インデックスと検索が 2 つの異なる別個のコンポーネントである従来の検索アーキテクチャとは異なり、DSI は単一のトランスフォーマー モデルを使用してインデックス作成と検索の両方を実行します。
このペーパーでは、現在の DSI モデルの重要な問題、つまり DSI のインデックス作成プロセスと取得プロセスの間で発生するデータ分散の不一致を特定し、それに取り組みます。
具体的には、現在の DSI 手法は、インデックス作成時に、長い文書のテキストとその文書の識別子との間の接続を構築することを学習しますが、その後、文書識別子の取得は、通常、インデックス付けされた文書よりもはるかに短いクエリに基づいて行われると主張します。
この問題は、ドキュメント テキストとクエリ テキストが異なる言語で書かれているクロス言語検索に DSI を使用する場合にさらに悪化します。
現在の DSI モデルのこの根本的な問題に対処するために、DSI-QG と呼ばれる、DSI 用のシンプルかつ効果的なインデックス フレームワークを提案します。
インデックス作成の際、DSI-QG は、クエリ生成モデルによって生成され、クロスエンコーダー ランカーによって再ランク付けおよびフィルタリングされた、関連する可能性のある多数のクエリを含むドキュメントを表します。
インデックス作成時にこれらのクエリが存在することで、DSI モデルはドキュメント識別子を一連のクエリに関連付けることができるため、インデックス作成フェーズと取得フェーズの間に存在するデータ分散の不一致が軽減されます。
一般的な単一言語および複数言語のパッセージ検索データセットに関する実証結果は、DSI-QG が元の DSI モデルよりも大幅に優れていることを示しています。

要約(オリジナル)

The Differentiable Search Index (DSI) is an emerging paradigm for information retrieval. Unlike traditional retrieval architectures where index and retrieval are two different and separate components, DSI uses a single transformer model to perform both indexing and retrieval. In this paper, we identify and tackle an important issue of current DSI models: the data distribution mismatch that occurs between the DSI indexing and retrieval processes. Specifically, we argue that, at indexing, current DSI methods learn to build connections between the text of long documents and the identifier of the documents, but then retrieval of document identifiers is based on queries that are commonly much shorter than the indexed documents. This problem is further exacerbated when using DSI for cross-lingual retrieval, where document text and query text are in different languages. To address this fundamental problem of current DSI models, we propose a simple yet effective indexing framework for DSI, called DSI-QG. When indexing, DSI-QG represents documents with a number of potentially relevant queries generated by a query generation model and re-ranked and filtered by a cross-encoder ranker. The presence of these queries at indexing allows the DSI models to connect a document identifier to a set of queries, hence mitigating data distribution mismatches present between the indexing and the retrieval phases. Empirical results on popular mono-lingual and cross-lingual passage retrieval datasets show that DSI-QG significantly outperforms the original DSI model.

arxiv情報

著者 Shengyao Zhuang,Houxing Ren,Linjun Shou,Jian Pei,Ming Gong,Guido Zuccon,Daxin Jiang
発行日 2023-07-07 04:08:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク