Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset

要約

Unbiased learning-to-rank (ULTR) は、ユーザーのクリックから学習するための確立されたフレームワークですが、データを収集するランカーによってバイアスがかかることがよくあります。
ULTR 技術は理論的に正当化され、シミュレーションで広範囲にテストされていますが、特に最新の検索エンジンでは経験的な検証が不足しています。
WSDM カップ 2023 用にリリースされた Baidu-ULTR データセットは、Baidu の検索エンジンから収集されており、著名な ULTR 技術の現実世界のパフォーマンスを評価する貴重な機会を提供します。
WSDM Cup 2023 とその後の NTCIR ULTRE-2 タスク中に複数の提出物が提出されたにもかかわらず、観察された改善が ULTR または他の学習テクニックの適用によるものかどうかは不明のままです。
この作業では、Baidu-ULTR データセットで利用可能な実験を再検討し、拡張します。
標準的な偏りのないランク付け学習手法は、クリック予測を確実に向上させますが、特にランキング損失とクエリドキュメントの特徴の選択によって得られる顕著な違いを考慮すると、ランキングのパフォーマンスを一貫して向上させるのに苦労していることがわかりました。
私たちの実験では、クリック予測の向上が必ずしも専門家の関連性アノテーションでのランキング パフォーマンスの向上につながるわけではないことが明らかになりました。これは、結論がこのベンチマークでの成功の測定方法に強く依存していることを意味します。

要約(オリジナル)

Unbiased learning-to-rank (ULTR) is a well-established framework for learning from user clicks, which are often biased by the ranker collecting the data. While theoretically justified and extensively tested in simulation, ULTR techniques lack empirical validation, especially on modern search engines. The Baidu-ULTR dataset released for the WSDM Cup 2023, collected from Baidu’s search engine, offers a rare opportunity to assess the real-world performance of prominent ULTR techniques. Despite multiple submissions during the WSDM Cup 2023 and the subsequent NTCIR ULTRE-2 task, it remains unclear whether the observed improvements stem from applying ULTR or other learning techniques. In this work, we revisit and extend the available experiments on the Baidu-ULTR dataset. We find that standard unbiased learning-to-rank techniques robustly improve click predictions but struggle to consistently improve ranking performance, especially considering the stark differences obtained by choice of ranking loss and query-document features. Our experiments reveal that gains in click prediction do not necessarily translate to enhanced ranking performance on expert relevance annotations, implying that conclusions strongly depend on how success is measured in this benchmark.

arxiv情報

著者 Philipp Hager,Romain Deffayet,Jean-Michel Renders,Onno Zoeter,Maarten de Rijke
発行日 2024-05-01 13:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク