Event-driven Real-time Retrieval in Web Search

要約

リアルタイム検索における情報検索は、従来のウェブ検索とは異なるユニークな課題を抱えている。これらの課題は、地震、選挙、戦争などのニュース速報の発生と進展に影響されるユーザーの検索意図の急速な変化により、特に顕著である。主に静的な意味表現に焦点を当てたこれまでの密な検索手法は、即時の検索意図を捉える能力に欠け、時間的制約のあるシナリオにおいて最新のイベント関連文書を検索する性能が劣ることになる。この問題に対処するため、本稿では、リアルタイムの検索意図を表すイベント情報でクエリを拡張する。イベント情報はクロスアテンションメカニズムによってクエリと統合され、時間コンテクストのクエリ表現となる。さらに、マルチタスク学習により、イベントの表現能力を向上させる。MS-MARCOのような一般に公開されているデータセットには、クエリ側にイベント情報が含まれておらず、時間依存のクエリが少ないため、この問題に対処するために、ModelZooベースの粗いアノテーションとLLM駆動の細かいアノテーションを含む、自動データ収集とアノテーションのパイプラインを設計する。さらに、2段階トレーニングやハードネガティブサンプリングなどのトレーニングトリックを共有する。最後に、本アプローチを評価するために、100万スケールのプロダクションデータセットを用いたオフライン実験を実施し、実際のオンラインシステムでA/Bテストを実施してパフォーマンスを検証する。広範な実験結果は、我々の提案するアプローチが既存の最先端のベースライン手法を大幅に上回ることを実証している。

要約(オリジナル)

Information retrieval in real-time search presents unique challenges distinct from those encountered in classical web search. These challenges are particularly pronounced due to the rapid change of user search intent, which is influenced by the occurrence and evolution of breaking news events, such as earthquakes, elections, and wars. Previous dense retrieval methods, which primarily focused on static semantic representation, lack the capacity to capture immediate search intent, leading to inferior performance in retrieving the most recent event-related documents in time-sensitive scenarios. To address this issue, this paper expands the query with event information that represents real-time search intent. The Event information is then integrated with the query through a cross-attention mechanism, resulting in a time-context query representation. We further enhance the model’s capacity for event representation through multi-task training. Since publicly available datasets such as MS-MARCO do not contain any event information on the query side and have few time-sensitive queries, we design an automatic data collection and annotation pipeline to address this issue, which includes ModelZoo-based Coarse Annotation and LLM-driven Fine Annotation processes. In addition, we share the training tricks such as two-stage training and hard negative sampling. Finally, we conduct a set of offline experiments on a million-scale production dataset to evaluate our approach and deploy an A/B testing in a real online system to verify the performance. Extensive experimental results demonstrate that our proposed approach significantly outperforms existing state-of-the-art baseline methods.

arxiv情報

著者 Nan Yang,Shusen Zhang,Yannan Zhang,Xiaoling Bai,Hualong Deng,Tianhua Zhou,Jin Ma
発行日 2023-12-04 11:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR パーマリンク