要約
マルチメディア システムの発展に伴い、インタラクションを超えた豊富なコンテキストを活用できるマルチモーダル レコメンデーションが重要な役割を果たしています。
既存の方法は主にマルチモーダル情報を補助的なものとみなし、ID 特徴の学習に使用します。
ただし、マルチモーダル コンテンツの機能と ID ベースの機能の間には意味上のギャップが存在し、マルチモーダル情報を補助として直接使用すると、ユーザーとアイテムの表現に不整合が生じる可能性があります。
このペーパーでは、まずマルチモーダル レコメンデーションにおける不整合の問題を体系的に調査し、AlignRec という名前のソリューションを提案します。
AlignRec では、レコメンデーションの目的は、コンテンツ内での調整、コンテンツとカテゴリ ID 間の調整、およびユーザーとアイテム間の調整の 3 つの調整に分解されます。
各アラインメントは特定の目的関数によって特徴付けられ、マルチモーダルな推奨フレームワークに統合されています。
AlignRec を効果的にトレーニングするには、最初のアライメントの事前トレーニングから開始して統合されたマルチモーダル特徴を取得し、続いてこれらの特徴を入力として次の 2 つのアライメントをトレーニングすることを提案します。
各マルチモーダル機能がトレーニングに役立ち、レコメンデーション モデルの反復サイクルを加速するかどうかを分析することが重要であるため、中間パフォーマンスを評価するための 3 つの新しいクラスのメトリクスを設計します。
3 つの現実世界のデータセットに対する広範な実験により、9 つのベースラインと比較した AlignRec の優位性が一貫して検証されています。
また、AlignRec によって生成されたマルチモーダル機能は、現在使用されている機能よりも優れていることがわかり、リポジトリ https://github.com/sjtulyf123/AlignRec_CIKM24 でオープンソース化される予定です。
要約(オリジナル)
With the development of multimedia systems, multimodal recommendations are playing an essential role, as they can leverage rich contexts beyond interactions. Existing methods mainly regard multimodal information as an auxiliary, using them to help learn ID features; However, there exist semantic gaps among multimodal content features and ID-based features, for which directly using multimodal information as an auxiliary would lead to misalignment in representations of users and items. In this paper, we first systematically investigate the misalignment issue in multimodal recommendations, and propose a solution named AlignRec. In AlignRec, the recommendation objective is decomposed into three alignments, namely alignment within contents, alignment between content and categorical ID, and alignment between users and items. Each alignment is characterized by a specific objective function and is integrated into our multimodal recommendation framework. To effectively train AlignRec, we propose starting from pre-training the first alignment to obtain unified multimodal features and subsequently training the following two alignments together with these features as input. As it is essential to analyze whether each multimodal feature helps in training and accelerate the iteration cycle of recommendation models, we design three new classes of metrics to evaluate intermediate performance. Our extensive experiments on three real-world datasets consistently verify the superiority of AlignRec compared to nine baselines. We also find that the multimodal features generated by AlignRec are better than currently used ones, which are to be open-sourced in our repository https://github.com/sjtulyf123/AlignRec_CIKM24.
arxiv情報
著者 | Yifan Liu,Kangning Zhang,Xiangyuan Ren,Yanhua Huang,Jiarui Jin,Yingjie Qin,Ruilong Su,Ruiwen Xu,Yong Yu,Weinan Zhang |
発行日 | 2024-08-01 03:32:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google