SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation

要約

最新のレコメンデーション システムでは、ユーザーの行動のモデリングが重要です。
多くの研究は、ユーザーの生涯にわたるシーケンスのモデリングに焦点を当てていますが、これは非常に長く、場合によっては数千項目を超える場合があります。
これらのモデルは、ターゲット項目を使用して、履歴シーケンスから最も関連性の高い項目を検索します。
ただし、クリックスルー率 (CTR) 予測やパーソナライズド検索ランキング (PSR) で生涯シーケンスをトレーニングすることは、ID 埋め込みの学習が不十分であるため、特に生涯シーケンス特徴の ID がトレーニングのサンプルに存在しない場合には非常に困難です。
データセット。
さらに、既存のターゲット アテンション メカニズムは、シーケンス内の項目のマルチモーダル表現をうまく学習するのに苦労しています。
ユーザーが操作したアイテムのマルチモーダル埋め込み (テキスト、画像、属性) 出力の分布が適切に調整されておらず、モダリティ間で相違が存在します。
また、ユーザーの検索クエリ シーケンスとアイテム閲覧シーケンスがユーザーの意図を完全に表現し、相互に利益をもたらす可能性があることも観察しています。
これらの課題に対処するために、我々は、SEMINAR-Search Enhanced Multi-Modal Interest Network and Average Retrieval と呼ばれる統一された生涯マルチモーダル シーケンス モデルを提案します。
具体的には、Pretraining Search Unit (PSU) と呼ばれるネットワークは、複数の目的 (マルチモーダル アラインメント、次のクエリ項目ペアの予測、クエリ項目の関連性予測) を備えた事前トレーニング微調整方式で、マルチモーダル クエリ項目ペアの生涯にわたるシーケンスを学習します。
事前トレーニング後、下流モデルは初期化として事前トレーニングされた埋め込みを復元し、ネットワークを微調整します。
マルチモーダル埋め込みのオンライン検索速度を加速するために、正確なアテンション計算を近似するマルチモーダル コードブック ベースの積量子化戦略を提案します。

要約(オリジナル)

The modeling of users’ behaviors is crucial in modern recommendation systems. A lot of research focuses on modeling users’ lifelong sequences, which can be extremely long and sometimes exceed thousands of items. These models use the target item to search for the most relevant items from the historical sequence. However, training lifelong sequences in click through rate (CTR) prediction or personalized search ranking (PSR) is extremely difficult due to the insufficient learning problem of ID embedding, especially when the IDs in the lifelong sequence features do not exist in the samples of training dataset. Additionally, existing target attention mechanisms struggle to learn the multi-modal representations of items in the sequence well. The distribution of multi-modal embedding (text, image and attributes) output of user’s interacted items are not properly aligned and there exist divergence across modalities. We also observe that users’ search query sequences and item browsing sequences can fully depict users’ intents and benefit from each other. To address these challenges, we propose a unified lifelong multi-modal sequence model called SEMINAR-Search Enhanced Multi-Modal Interest Network and Approximate Retrieval. Specifically, a network called Pretraining Search Unit (PSU) learns the lifelong sequences of multi-modal query-item pairs in a pretraining-finetuning manner with multiple objectives: multi-modal alignment, next query-item pair prediction, query-item relevance prediction, etc. After pretraining, the downstream model restores the pretrained embedding as initialization and finetunes the network. To accelerate the online retrieval speed of multi-modal embedding, we propose a multi-modal codebook-based product quantization strategy to approximate the exact attention calculati

arxiv情報

著者 Kaiming Shen,Xichen Ding,Zixiang Zheng,Yuqi Gong,Qianqian Li,Zhongyi Liu,Guannan Zhang
発行日 2024-07-15 13:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク