On Softmax Direct Preference Optimization for Recommendation

要約

レコメンダー システムは、ユーザーの好みのデータに基づいてパーソナライズされたランキングを予測することを目的としています。
言語モデル (LM) の台頭により、その広範な世界知識と強力な推論能力により、LM ベースのレコメンダーが広く検討されるようになりました。
LM ベースのレコメンダーのほとんどは、過去のインタラクションを言語プロンプトに変換し、ターゲット応答として肯定的な項目と組み合わせ、言語モデリングの損失を考慮して LM を微調整します。
ただし、現在の目標は嗜好データを完全に活用できておらず、パーソナライズされたランキング タスク用に最適化されていないため、LM ベースのレコメンダーのパフォーマンスが妨げられています。
人間の好みの調整における Direct Preference Optimization (DPO) の現在の進歩と、推奨におけるソフトマックス損失の成功に触発され、LM にランキング情報を注入して LM を支援する Softmax-DPO (\textbf{S-DPO}) を提案します。
ベースのレコメンダーは、ポジティブな点だけに焦点を当てるのではなく、推奨されるアイテムとネガティブなアイテムを区別します。
具体的には、ユーザーの嗜好データに複数のネガを組み込み、ソフトマックス サンプリング戦略に関連した LM ベースのレコメンダー向けに調整された DPO 損失の代替バージョンを考案します。
理論的には、S-DPO をネガティブ サンプリング上のソフトマックス損失で橋渡しすると、ハード ネガティブをマイニングする副作用があることがわかり、これによりレコメンデーション タスクにおける卓越した機能が保証されます。
3 つの現実世界のデータセットに対して行われた広範な実験により、DPO のデータ可能性低下の問題を軽減しながら、ユーザーの好みを効果的にモデル化し、レコメンデーションのパフォーマンスをさらに向上させる S-DPO の優位性が実証されています。
コードは https://github.com/chenyuxin1999/S-DPO で入手できます。

要約(オリジナル)

Recommender systems aim to predict personalized rankings based on user preference data. With the rise of Language Models (LMs), LM-based recommenders have been widely explored due to their extensive world knowledge and powerful reasoning abilities. Most of the LM-based recommenders convert historical interactions into language prompts, pairing with a positive item as the target response and fine-tuning LM with a language modeling loss. However, the current objective fails to fully leverage preference data and is not optimized for personalized ranking tasks, which hinders the performance of LM-based recommenders. Inspired by the current advancement of Direct Preference Optimization (DPO) in human preference alignment and the success of softmax loss in recommendations, we propose Softmax-DPO (\textbf{S-DPO}) to instill ranking information into the LM to help LM-based recommenders distinguish preferred items from negatives, rather than solely focusing on positives. Specifically, we incorporate multiple negatives in user preference data and devise an alternative version of DPO loss tailored for LM-based recommenders, connected to softmax sampling strategies. Theoretically, we bridge S-DPO with the softmax loss over negative sampling and find that it has a side effect of mining hard negatives, which assures its exceptional capabilities in recommendation tasks. Empirically, extensive experiments conducted on three real-world datasets demonstrate the superiority of S-DPO to effectively model user preference and further boost recommendation performance while mitigating the data likelihood decline issue of DPO. Our codes are available at https://github.com/chenyuxin1999/S-DPO.

arxiv情報

著者 Yuxin Chen,Junfei Tan,An Zhang,Zhengyi Yang,Leheng Sheng,Enzhi Zhang,Xiang Wang,Tat-Seng Chua
発行日 2024-06-13 15:16:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク