要約
Differentiable Search Index (DSI) は、事前トレーニング済み言語モデル (PLM) を利用して、外部インデックスに依存せずに効率的にドキュメントを検索します。
ただし、動的コーパスの更新を処理するには DSI を完全に再トレーニングする必要があり、大幅な計算効率の低下を引き起こします。
PromptDSI を導入します。これは、インスタンスごとの段階的な学習ドキュメントの取得のための、プロンプトベースのリハーサル不要のアプローチです。
PromptDSI は、凍結された PLM の DSI エンコーダーにプロンプトを添付し、その強力な表現を活用して、安定性と可塑性のバランスを維持しながら新しいコーパスに効率的にインデックスを付けます。
トレーニングと推論の時間を 2 倍にするプロンプトベースの継続学習手法の最初のフォワード パスを排除します。
さらに、固定キーとしてニューラル トピック埋め込みを使用するトピック認識プロンプト プールを提案します。
この戦略により、多様で効果的なプロンプトの使用が保証され、クエリキー照合メカニズムの崩壊によって引き起こされるパラメーターの十分な活用という課題に対処できます。
私たちの経験的評価は、BERT ベースの PromptDSI が忘却の管理において IncDSI と同等であると同時に、新しいコーパスのパフォーマンスを NQ320k で 4% 以上 Hits@10、MS MARCO 300k で最大 3% MRR@10 改善することを示しています。
要約(オリジナル)
Differentiable Search Index (DSI) utilizes Pre-trained Language Models (PLMs) for efficient document retrieval without relying on external indexes. However, DSI needs full re-training to handle updates in dynamic corpora, causing significant computational inefficiencies. We introduce PromptDSI, a prompt-based rehearsal-free approach for instance-wise incremental learning document retrieval. PromptDSI attaches prompts to the frozen PLM’s encoder of DSI, leveraging its powerful representation to efficiently index new corpora while maintaining a balance between stability and plasticity. We eliminate the initial forward pass of prompt-based continual learning methods that doubles training and inference time. Moreover, we propose a topic-aware prompt pool that employs neural topic embeddings as fixed keys. This strategy ensures diverse and effective prompt usage, addressing the challenge of parameter underutilization caused by the collapse of the query-key matching mechanism. Our empirical evaluations demonstrate that BERT-based PromptDSI matches IncDSI in managing forgetting while improving new corpora performance by more than 4% Hits@10 on NQ320k and upto 3% MRR@10 on MS MARCO 300k.
arxiv情報
著者 | Tuan-Luc Huynh,Thuy-Trang Vu,Weiqing Wang,Yinwei Wei,Trung Le,Dragan Gasevic,Yuan-Fang Li,Thanh-Toan Do |
発行日 | 2024-10-16 13:45:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google