DSI++: Updating Transformer Memory with New Documents

要約

Differentiable Search Indices (DSI) は、ドキュメントのコーパスをモデル パラメーターでエンコードし、同じモデルを使用してユーザーのクエリに直接回答します。
DSI モデルの優れたパフォーマンスにもかかわらず、コーパスの再インデックス付けにはモデルの再トレーニングが必要となるため、コーパスが時間の経過とともに変化する状況で DSI モデルを導入すると、計算コストが高くなります。
この作業では、DSI++ を導入します。DSI++ は、以前にインデックスが作成されたドキュメントと新しくインデックスが作成されたドキュメントの両方に関連するクエリに答えながら、新しいドキュメントに段階的にインデックスを付けるための DSI の継続的な学習課題です。
さまざまなモデルスケールと文書識別子の表現にわたって、新しい文書の継続的なインデックス作成が、以前にインデックス付けされた文書のかなりの忘却につながることを示します。
また、モデルがトレーニング中にイベントの忘却を経験し、学習が不安定になるという仮説を立てて検証します。
これらの問題を軽減するために、2 つのアプローチを調査します。
1 つ目は、トレーニングのダイナミクスを変更することに焦点を当てています。
平坦な最小値は暗黙的に忘却を軽減するため、より平坦な損失盆地に合わせて最適化し、モデルがより多くのドキュメント ($+12\%$) を安定して記憶することを示します。
次に、生成メモリを導入してドキュメントの疑似クエリをサンプリングし、継続的なインデックス作成中にそれらを補完して、検索タスクの忘れを防ぎます。
Natural question (NQ) と MS MARCO に基づく新しい継続的インデックス作成ベンチマークに関する広範な実験により、私たちが提案したソリューションが物忘れを大幅に軽減することが実証されました。
具体的には、NQ の競合ベースラインと比較して、平均 Hits@10 が $+21.1\%$ 向上し、シーケンス内の 5 つのコーパスに段階的にインデックスを作成するために DSI モデルを再トレーニングする場合と比較して、必要なモデル更新が $6$ 倍少なくなります。

要約(オリジナル)

Differentiable Search Indices (DSIs) encode a corpus of documents in model parameters and use the same model to answer user queries directly. Despite the strong performance of DSI models, deploying them in situations where the corpus changes over time is computationally expensive because reindexing the corpus requires re-training the model. In this work, we introduce DSI++, a continual learning challenge for DSI to incrementally index new documents while being able to answer queries related to both previously and newly indexed documents. Across different model scales and document identifier representations, we show that continual indexing of new documents leads to considerable forgetting of previously indexed documents. We also hypothesize and verify that the model experiences forgetting events during training, leading to unstable learning. To mitigate these issues, we investigate two approaches. The first focuses on modifying the training dynamics. Flatter minima implicitly alleviate forgetting, so we optimize for flatter loss basins and show that the model stably memorizes more documents ($+12\%$). Next, we introduce a generative memory to sample pseudo-queries for documents and supplement them during continual indexing to prevent forgetting for the retrieval task. Extensive experiments on novel continual indexing benchmarks based on Natural Questions (NQ) and MS MARCO demonstrate that our proposed solution mitigates forgetting significantly. Concretely, it improves the average Hits@10 by $+21.1\%$ over competitive baselines for NQ and requires $6$ times fewer model updates compared to re-training the DSI model for incrementally indexing five corpora in a sequence.

arxiv情報

著者 Sanket Vaibhav Mehta,Jai Gupta,Yi Tay,Mostafa Dehghani,Vinh Q. Tran,Jinfeng Rao,Marc Najork,Emma Strubell,Donald Metzler
発行日 2023-12-08 05:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク