要約
パーソナライズされたオンラインサービスの普及に伴い、クリックスルー率(CTR)予測はますます注目され、研究が進んでいる。CTR予測の最も顕著な特徴は、マルチフィールドのカテゴリデータ形式と、膨大かつ日々増加するデータ量である。ニューラル・モデルの大容量は、教師あり学習パラダイムの下で、このような膨大なデータを消化するのに役立ちますが、1ビットのクリック信号は、特徴やインスタンスの有能な表現を学習するためにモデルを導くには不十分であるため、膨大なデータを最大限に活用することはできません。自己教師付き学習パラダイムは、大量のユーザークリックログをより良く利用し、より一般化された効果的な表現を学習する、より有望な事前訓練-微調整ソリューションを提供する。しかしながら、CTR予測のための自己教師あり学習は、まだ未解決の問題である。この目的を達成するため、我々は、多フィールドのカテゴリデータに対して特徴破損と復元を適用するモデル不可知的事前学習(MAP)フレームワークを提案し、より具体的には、マスクされた特徴予測(MFP)と置換された特徴検出(RFD)という2つの実用的なアルゴリズムを導出する。MFPは、入力特徴のごく一部をマスキングして予測することで、各インスタンス内の特徴の相互作用を掘り下げ、大きな特徴空間を扱うためにノイズコントラスト推定(NCE)を導入する。RFDはさらに、入力特徴の置換と変化の検出を通じて、MFPを二値分類モードに変え、CTRの事前学習をよりシンプルかつ効果的にする。2つの実世界の大規模データセット(すなわち、Avazu、Criteo)を用いた広範な実験により、いくつかの強力なバックボーン(例えば、DCNv2、DeepFM)上でこれら2つの手法の優位性が実証され、CTR予測の有効性と効率性の両方において新たな最先端の性能が達成された。
要約(オリジナル)
With the widespread application of personalized online services, click-through rate (CTR) prediction has received more and more attention and research. The most prominent features of CTR prediction are its multi-field categorical data format, and vast and daily-growing data volume. The large capacity of neural models helps digest such massive amounts of data under the supervised learning paradigm, yet they fail to utilize the substantial data to its full potential, since the 1-bit click signal is not sufficient to guide the model to learn capable representations of features and instances. The self-supervised learning paradigm provides a more promising pretrain-finetune solution to better exploit the large amount of user click logs, and learn more generalized and effective representations. However, self-supervised learning for CTR prediction is still an open question, since current works on this line are only preliminary and rudimentary. To this end, we propose a Model-agnostic pretraining (MAP) framework that applies feature corruption and recovery on multi-field categorical data, and more specifically, we derive two practical algorithms: masked feature prediction (MFP) and replaced feature detection (RFD). MFP digs into feature interactions within each instance through masking and predicting a small portion of input features, and introduces noise contrastive estimation (NCE) to handle large feature spaces. RFD further turns MFP into a binary classification mode through replacing and detecting changes in input features, making it even simpler and more effective for CTR pretraining. Our extensive experiments on two real-world large-scale datasets (i.e., Avazu, Criteo) demonstrate the advantages of these two methods on several strong backbones (e.g., DCNv2, DeepFM), and achieve new state-of-the-art performance in terms of both effectiveness and efficiency for CTR prediction.
arxiv情報
著者 | Jianghao Lin,Yanru Qu,Wei Guo,Xinyi Dai,Ruiming Tang,Yong Yu,Weinan Zhang |
発行日 | 2023-08-03 12:55:55+00:00 |
arxivサイト | arxiv_id(pdf) |