要約
クロスドメインの連続的な推奨事項(CDSR)は、複数のドメインにわたって歴史的な相互作用を活用してユーザーの動作を予測し、シーケンス間および介入のアイテム関係を通じてクロスドメインの好みをモデリングすることに焦点を当てています。
人間の認知プロセスに触発されて、視覚的およびテキスト表現(HAF-VT)の階層的な注意融合を提案します。これは、視覚データとテキストデータを統合して認知モデリングを強化する新しいアプローチです。
フローズンクリップモデルを使用して、画像とテキストの埋め込みを生成し、マルチモーダルデータでアイテム表現を濃縮します。
階層的な注意メカニズムは、単一ドメインとクロスドメインの好みを共同で学習し、人間の情報統合を模倣します。
4つのeコマースデータセットで評価されているHAF-VTは、ドメインのユーザーの関心をキャプチャし、認知原理を計算モデルで埋め、順次意思決定におけるマルチモーダルデータの役割を強調する際に既存の方法を上回ります。
要約(オリジナル)
Cross-Domain Sequential Recommendation (CDSR) predicts user behavior by leveraging historical interactions across multiple domains, focusing on modeling cross-domain preferences through intra- and inter-sequence item relationships. Inspired by human cognitive processes, we propose Hierarchical Attention Fusion of Visual and Textual Representations (HAF-VT), a novel approach integrating visual and textual data to enhance cognitive modeling. Using the frozen CLIP model, we generate image and text embeddings, enriching item representations with multimodal data. A hierarchical attention mechanism jointly learns single-domain and cross-domain preferences, mimicking human information integration. Evaluated on four e-commerce datasets, HAF-VT outperforms existing methods in capturing cross-domain user interests, bridging cognitive principles with computational models and highlighting the role of multimodal data in sequential decision-making.
arxiv情報
著者 | Wangyu Wu,Zhenhong Chen,Siqi Song,Xianglin Qiua,Xiaowei Huang,Fei Ma,Jimin Xiao |
発行日 | 2025-04-21 13:18:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google