A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios

要約

ほとんどのレコメンダー システムは協調フィルタリング (CF) を採用し、過去の集合的な対話に基づいて推奨を提供します。
したがって、利用可能なインタラクションがほとんどまたはまったくない場合、CF アルゴリズムのパフォーマンスは低下します。このシナリオはコールド スタートと呼ばれます。
この問題に対処するために、これまでの研究は、共同データと、ユーザーまたはアイテムに関するサイド情報の両方を活用するモデルに依存していました。
マルチモーダル学習と同様に、これらのモデルは、共有の埋め込みスペースで共同表現とコンテンツ表現を組み合わせることが目的です。
この研究では、マルチモーダル レコメンデーション用シングルブランチ埋め込みネットワーク (SiBraR) に依存した、マルチモーダル レコメンデーションのための新しい手法を提案します。
SiBraR は、重み共有を利用して、異なるモダリティ上で同じ単一ブランチの埋め込みネットワークを使用して、インタラクション データとマルチモーダルのサイド情報をエンコードします。
これにより、SiBraR は、コールド スタートなど、モダリティが欠落しているシナリオで効果的になります。
3 つの異なるレコメンデーション ドメイン (音楽、映画、電子商取引) からの大規模なレコメンデーション データセットとマルチモーダル コンテンツ情報 (オーディオ、テキスト、画像、ラベル、インタラクション) の提供に関する広範な実験により、SiBraR が CF だけでなく CF よりも大幅に優れていることがわかりました。
コールド スタート シナリオでは最先端のコンテンツ ベース RS を使用でき、ウォーム シナリオでも競争力があります。
我々は、SiBraR の推奨が欠落モダリティ シナリオにおいて正確であること、およびモデルが異なるモダリティを共有埋め込み空間の同じ領域にマッピングできるため、モダリティ ギャップを削減できることを示します。

要約(オリジナル)

Most recommender systems adopt collaborative filtering (CF) and provide recommendations based on past collective interactions. Therefore, the performance of CF algorithms degrades when few or no interactions are available, a scenario referred to as cold-start. To address this issue, previous work relies on models leveraging both collaborative data and side information on the users or items. Similar to multimodal learning, these models aim at combining collaborative and content representations in a shared embedding space. In this work we propose a novel technique for multimodal recommendation, relying on a multimodal Single-Branch embedding network for Recommendation (SiBraR). Leveraging weight-sharing, SiBraR encodes interaction data as well as multimodal side information using the same single-branch embedding network on different modalities. This makes SiBraR effective in scenarios of missing modality, including cold start. Our extensive experiments on large-scale recommendation datasets from three different recommendation domains (music, movie, and e-commerce) and providing multimodal content information (audio, text, image, labels, and interactions) show that SiBraR significantly outperforms CF as well as state-of-the-art content-based RSs in cold-start scenarios, and is competitive in warm scenarios. We show that SiBraR’s recommendations are accurate in missing modality scenarios, and that the model is able to map different modalities to the same region of the shared embedding space, hence reducing the modality gap.

arxiv情報

著者 Christian Ganhör,Marta Moscati,Anna Hausberger,Shah Nawaz,Markus Schedl
発行日 2024-09-26 14:12:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, cs.MM パーマリンク