Event-Centric Query Expansion in Web Search

要約

検索エンジンでは、クエリ拡張 (QE) は検索エクスペリエンスを向上させるための重要な技術です。
これまでの研究は長期にわたる検索ログ マイニングに依存することが多く、更新が遅くなり、時間に敏感なニュース検索には最適とは言えません。
この研究では、大量の潜在的なイベントから最適な拡張を迅速かつ正確にマイニングすることでこれらの問題に対処する新しい QE システムであるイベント中心のクエリ拡張 (EQE) を紹介します。
このシステムは、イベント収集、イベント再定式化、意味検索、オンラインランキングの 4 つの段階で構成されます。
具体的には、まずウェブサイトからニュースの見出しを収集してフィルタリングします。
次に、これらの見出しを簡潔な候補に再定式化するために、対照学習とプロンプトチューニング手法を組み込んだ生成モデルを提案します。
さらに、イベント取得のエンコーダーとして機能するようにデュアルタワー セマンティック モデルを微調整し、イベント取得の精度を高めるための 2 段階の対照的なトレーニング アプローチを検討します。
最後に、取得したイベントをランク付けし、最適なものを QE として選択します。これは、イベント関連ドキュメントの取得を向上させるために使用されます。
オフライン分析とオンライン A/B テストを通じて、EQE システムがベースラインと比較して多くの指標を大幅に改善していることがわかりました。
このシステムは Tencent QQ Browser Search に導入され、数億人のユーザーにサービスを提供しています。
データセットとベースライン コードは https://open-event-hub.github.io/eqe で入手できます。

要約(オリジナル)

In search engines, query expansion (QE) is a crucial technique to improve search experience. Previous studies often rely on long-term search log mining, which leads to slow updates and is sub-optimal for time-sensitive news searches. In this work, we present Event-Centric Query Expansion (EQE), a novel QE system that addresses these issues by mining the best expansion from a significant amount of potential events rapidly and accurately. This system consists of four stages, i.e., event collection, event reformulation, semantic retrieval and online ranking. Specifically, we first collect and filter news headlines from websites. Then we propose a generation model that incorporates contrastive learning and prompt-tuning techniques to reformulate these headlines to concise candidates. Additionally, we fine-tune a dual-tower semantic model to function as an encoder for event retrieval and explore a two-stage contrastive training approach to enhance the accuracy of event retrieval. Finally, we rank the retrieved events and select the optimal one as QE, which is then used to improve the retrieval of event-related documents. Through offline analysis and online A/B testing, we observe that the EQE system significantly improves many metrics compared to the baseline. The system has been deployed in Tencent QQ Browser Search and served hundreds of millions of users. The dataset and baseline codes are available at https://open-event-hub.github.io/eqe .

arxiv情報

著者 Yanan Zhang,Weijie Cui,Yangfan Zhang,Xiaoling Bai,Zhe Zhang,Jin Ma,Xiang Chen,Tianhua Zhou
発行日 2023-05-30 13:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク