要約
検索、広告、レコメンデーションにおける重要な謎は、ランキング モデルが利用できる膨大なユーザー インタラクション データのごく一部しか利用できないことです。
その結果、データ量、モデル サイズ、または計算 FLOP が増加すると、すぐに収益が減少することになります。
この問題を調査したところ、根本原因の 1 つは、語彙に制限がなく、したがってモデルの複雑さが制御されない、いわゆる「項目中心」の定式化にある可能性があることがわかりました。
品質の飽和を緩和するために、二項ユーザーと項目のインタラクション データの転置ビューに基づく「ユーザー中心のランキング」という名前の代替定式化を導入します。
この定式化には有望なスケーリング特性があり、大幅に大規模なデータセットでより適切に収束したモデルをトレーニングできることを示します。
要約(オリジナル)
A key puzzle in search, ads, and recommendation is that the ranking model can only utilize a small portion of the vastly available user interaction data. As a result, increasing data volume, model size, or computation FLOPs will quickly suffer from diminishing returns. We examined this problem and found that one of the root causes may lie in the so-called “item-centric” formulation, which has an unbounded vocabulary and thus uncontrolled model complexity. To mitigate quality saturation, we introduce an alternative formulation named “user-centric ranking”, which is based on a transposed view of the dyadic user-item interaction data. We show that this formulation has a promising scaling property, enabling us to train better-converged models on substantially larger data sets.
arxiv情報
著者 | Zhuokai Zhao,Yang Yang,Wenyu Wang,Chihuang Liu,Yu Shi,Wenjie Hu,Haotian Zhang,Shuang Yang |
発行日 | 2023-05-24 16:45:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google