要約
既存の広告のクリック率 (CTR) 予測モデルは、主に行動 ID 機能に依存しており、これは過去のユーザーと広告のやり取りに基づいて学習されます。
それにもかかわらず、過去のユーザーの行動に依存する行動 ID 機能は、ユーザーとの以前の対話なしに新しい広告を説明することはできません。
新しい広告のモデル化における行動 ID 機能の制限を克服するために、広告のビジュアル コンテンツを活用して、CTR 予測モデルのパフォーマンスを向上させます。
具体的には、ビジュアル コンテンツに基づいて、各広告を一連のビジュアル ID にマッピングします。
これらのビジュアル ID は、CTR 予測モデルを強化するためのビジュアル エンベディングを生成するためにさらに使用されます。
ビジュアル ID の学習を教師あり量子化問題に定式化します。
広告の商用画像にはクラス ラベルがないため、効果的なビジュアル ID を生成するために画像エクストラクタを最適化するための監視として、画像のテキスト記述を利用します。
一方、ハード量子化は微分不可能であるため、エンドツーエンドのネットワーク トレーニングをサポートするように量子化操作をソフトにします。
各画像をビジュアル ID にマッピングした後、過去に蓄積されたユーザーと広告のやり取りの履歴に基づいて、各ビジュアル ID の埋め込みを学習します。
ビジュアル ID の埋め込みはビジュアル コンテンツのみに依存するため、新しい広告にも一般化できます。
一方、ビジュアル ID の埋め込みは、広告動作 ID の埋め込みを補完します。
したがって、新しい広告と豊富なユーザー行動を蓄積した広告の両方で、以前は行動 ID 機能に依存していた CTR 予測モデルのパフォーマンスを大幅に向上させることができます。
Baidu オンライン広告の CTR 予測モデルにビジュアル ID 埋め込みを組み込んだ後、広告の平均 CTR は 1.46% 向上し、合計料金は 1.10% 増加しました。
要約(オリジナル)
Existing advertisements click-through rate (CTR) prediction models are mainly dependent on behavior ID features, which are learned based on the historical user-ad interactions. Nevertheless, behavior ID features relying on historical user behaviors are not feasible to describe new ads without previous interactions with users. To overcome the limitations of behavior ID features in modeling new ads, we exploit the visual content in ads to boost the performance of CTR prediction models. Specifically, we map each ad into a set of visual IDs based on its visual content. These visual IDs are further used for generating the visual embedding for enhancing CTR prediction models. We formulate the learning of visual IDs into a supervised quantization problem. Due to a lack of class labels for commercial images in advertisements, we exploit image textual descriptions as the supervision to optimize the image extractor for generating effective visual IDs. Meanwhile, since the hard quantization is non-differentiable, we soften the quantization operation to make it support the end-to-end network training. After mapping each image into visual IDs, we learn the embedding for each visual ID based on the historical user-ad interactions accumulated in the past. Since the visual ID embedding depends only on the visual content, it generalizes well to new ads. Meanwhile, the visual ID embedding complements the ad behavior ID embedding. Thus, it can considerably boost the performance of the CTR prediction models previously relying on behavior ID features for both new ads and ads that have accumulated rich user behaviors. After incorporating the visual ID embedding in the CTR prediction model of Baidu online advertising, the average CTR of ads improves by 1.46%, and the total charge increases by 1.10%.
arxiv情報
著者 | Tan Yu,Zhipeng Jin,Jie Liu,Yi Yang,Hongliang Fei,Ping Li |
発行日 | 2022-09-23 17:08:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google