Extending Dense Passage Retrieval with Temporal Information

要約

時間的認識は、多くの情報検索タスク、特にドキュメントの関連性がクエリの時間コンテキストとの整合に依存するシナリオで重要です。
BM25や密度の高いパッセージ検索(DPR)などの従来の検索方法は、語彙的および意味的な関連性のキャプチャに優れていますが、時間に敏感なクエリに対処するのに不足しています。
このギャップを埋めるために、クエリタイムスタンプとドキュメント日付を表現空間に組み込むことにより、明示的な時間信号を統合する時間的検索モデルを導入します。
私たちのアプローチにより、検索されたパッセージは局所的に関連するだけでなく、ユーザーの意図と一時的に整合することが保証されます。
2つの大規模なベンチマークデータセット、ArchivelqaとChroniclingAmericaqaでアプローチを評価し、標準の検索ベースラインよりも大きなパフォーマンスの向上を達成します。
特に、私たちのモデルは、ArchivalqaでTop-1検索の精度を6.63%、NDCG@10 x 3.79%改善し、ChroniclingAmericaqaのNDCG@10でTop-1検索の精度で9.56%、4.68%をもたらします。
さらに、トレーニング中に時間に敏感なネガティブサンプリング戦略を紹介します。これは、トレーニング中に時間的に関連する無関係なドキュメントを区別するモデルの能力を改善します。
私たちの調査結果は、検索システムで明示的に時間をモデル化することの重要性を強調し、一時的に接地されたクエリを処理するための新しい基準を設定します。

要約(オリジナル)

Temporal awareness is crucial in many information retrieval tasks, particularly in scenarios where the relevance of documents depends on their alignment with the query’s temporal context. Traditional retrieval methods such as BM25 and Dense Passage Retrieval (DPR) excel at capturing lexical and semantic relevance but fall short in addressing time-sensitive queries. To bridge this gap, we introduce the temporal retrieval model that integrates explicit temporal signals by incorporating query timestamps and document dates into the representation space. Our approach ensures that retrieved passages are not only topically relevant but also temporally aligned with user intent. We evaluate our approach on two large-scale benchmark datasets, ArchivalQA and ChroniclingAmericaQA, achieving substantial performance gains over standard retrieval baselines. In particular, our model improves Top-1 retrieval accuracy by 6.63% and NDCG@10 by 3.79% on ArchivalQA, while yielding a 9.56% boost in Top-1 retrieval accuracy and 4.68% in NDCG@10 on ChroniclingAmericaQA. Additionally, we introduce a time-sensitive negative sampling strategy, which refines the model’s ability to distinguish between temporally relevant and irrelevant documents during training. Our findings highlight the importance of explicitly modeling time in retrieval systems and set a new standard for handling temporally grounded queries.

arxiv情報

著者 Abdelrahman Abdallah,Bhawna Piryani,Jonas Wallat,Avishek Anand,Adam Jatowt
発行日 2025-02-28 13:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク