Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation

要約

大規模言語モデル (LLM) の最近の進歩により、レコメンデーション システム (RS) の分野で大きな可能性が示されています。
既存の研究のほとんどは、ユーザー行動ログをテキスト プロンプトに変換し、プロンプト チューニングなどの技術を活用して LLM を推奨タスクに使用できるようにすることに焦点を当てています。
一方、最近では、モダリティ融合技術を使用して画像、テキスト、その他のソースからのデータを統合するマルチモーダル レコメンデーション システムに対する研究への関心が高まっています。
これにより、テキスト モダリティ情報のみに依存する既存の LLM ベースの推奨パラダイムに新たな課題が生じます。
さらに、マルチモーダル入力を処理できるマルチモーダル大規模言語モデル (MLLM) が登場しましたが、MLLM にマルチモーダルなレコメンデーション機能を装備する方法はほとんど解明されていません。
この目的を達成するために、この論文では、マルチモーダル大規模言語モデル強化マルチモーダル逐次推奨 (MLLM-MSR) モデルを提案します。
動的なユーザーの好みを把握するために、2 段階のユーザーの好みを要約する方法を設計します。
具体的には、まず MLLM ベースの項目サマライザーを利用して、項目に与えられた画像の特徴を抽出し、画像をテキストに変換します。
次に、反復的なユーザー設定要約生成パラダイムを採用して、LLM ベースのユーザー要約に基づいてユーザー設定の動的な変化をキャプチャします。
最後に、MLLM によるマルチモーダル レコメンデーション タスクを有効にするために、教師あり微調整 (SFT) 技術を使用して MLLM ベースのレコメンダーを微調整することを提案します。
さまざまなデータセットにわたる広範な評価により MLLM-MSR の有効性が検証され、進化するユーザーの好みのダイナミクスを捕捉して適応する優れた能力が実証されています。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have demonstrated significant potential in the field of Recommendation Systems (RSs). Most existing studies have focused on converting user behavior logs into textual prompts and leveraging techniques such as prompt tuning to enable LLMs for recommendation tasks. Meanwhile, research interest has recently grown in multimodal recommendation systems that integrate data from images, text, and other sources using modality fusion techniques. This introduces new challenges to the existing LLM-based recommendation paradigm which relies solely on text modality information. Moreover, although Multimodal Large Language Models (MLLMs) capable of processing multi-modal inputs have emerged, how to equip MLLMs with multi-modal recommendation capabilities remains largely unexplored. To this end, in this paper, we propose the Multimodal Large Language Model-enhanced Multimodaln Sequential Recommendation (MLLM-MSR) model. To capture the dynamic user preference, we design a two-stage user preference summarization method. Specifically, we first utilize an MLLM-based item-summarizer to extract image feature given an item and convert the image into text. Then, we employ a recurrent user preference summarization generation paradigm to capture the dynamic changes in user preferences based on an LLM-based user-summarizer. Finally, to enable the MLLM for multi-modal recommendation task, we propose to fine-tune a MLLM-based recommender using Supervised Fine-Tuning (SFT) techniques. Extensive evaluations across various datasets validate the effectiveness of MLLM-MSR, showcasing its superior ability to capture and adapt to the evolving dynamics of user preferences.

arxiv情報

著者 Yuyang Ye,Zhi Zheng,Yishan Shen,Tianshu Wang,Hengruo Zhang,Peijun Zhu,Runlong Yu,Kai Zhang,Hui Xiong
発行日 2024-08-20 16:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク