MURR: Model Updating with Regularized Replay for Searching a Document Stream

要約

インターネットは、新しいドキュメントとユーザー生成のクエリの連続ストリームを生成します。
これらは、世界の出来事と言語の進化に基づいて、自然に時間とともに変化します。
クエリドキュメントペアの固定セットで一度トレーニングされたニューラル検索モデルは、新たに作成されたコンテンツとクエリの不実表示を迅速に開始し、効果的な検索につながります。
従来の統計的スパース検索は、ドキュメントやクエリでの言語の使用におけるこれらの変更を反映するために、収集統計を更新できます。
対照的に、DPRやコルバートなどの神経検索アプローチの根底にある言語モデルの継続的な微調整は、以前にエンコードされたドキュメントと非互換性を生み出します。
以前に処理されたすべてのドキュメントの再エンコードと再インデックスには費用がかかる場合があります。
この作業では、ストリーム内の過去のドキュメントを再処理することなく、ニューラルデュアルエンコーダー検索モデルの更新を検討します。
正規化されたリプレイを使用したモデル更新戦略であるMurrを提案し、最新のトピックのモデルを更新し続けながら、モデルが既存のドキュメントを忠実に検索できるようにします。
シミュレートされたストリーミング環境では、MURRを使用した微調整モデルは、ドキュメントとクエリのストリームが進むにつれて、他の戦略よりも効果的で一貫した検索結果につながることを示しています。

要約(オリジナル)

The Internet produces a continuous stream of new documents and user-generated queries. These naturally change over time based on events in the world and the evolution of language. Neural retrieval models that were trained once on a fixed set of query-document pairs will quickly start misrepresenting newly-created content and queries, leading to less effective retrieval. Traditional statistical sparse retrieval can update collection statistics to reflect these changes in the use of language in documents and queries. In contrast, continued fine-tuning of the language model underlying neural retrieval approaches such as DPR and ColBERT creates incompatibility with previously-encoded documents. Re-encoding and re-indexing all previously-processed documents can be costly. In this work, we explore updating a neural dual encoder retrieval model without reprocessing past documents in the stream. We propose MURR, a model updating strategy with regularized replay, to ensure the model can still faithfully search existing documents without reprocessing, while continuing to update the model for the latest topics. In our simulated streaming environments, we show that fine-tuning models using MURR leads to more effective and more consistent retrieval results than other strategies as the stream of documents and queries progresses.

arxiv情報

著者 Eugene Yang,Nicola Tonellotto,Dawn Lawrie,Sean MacAvaney,James Mayfield,Douglas W. Oard,Scott Miller
発行日 2025-04-14 14:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク