On Softmax Direct Preference Optimization for Recommendation

要約

レコメンダー システムは、ユーザーの好みのデータに基づいてパーソナライズされたランキングを予測することを目的としています。
言語モデル (LM) の台頭により、その広範な世界知識と強力な推論能力により、LM ベースのレコメンダーが広く検討されるようになりました。
LM ベースのレコメンダーのほとんどは、過去のインタラクションを言語プロンプトに変換し、ターゲット応答として肯定的な項目と組み合わせ、言語モデリングの損失を考慮して LM を微調整します。
ただし、現在の目標は嗜好データを完全に活用できておらず、パーソナライズされたランキング タスク用に最適化されていないため、LM ベースのレコメンダーのパフォーマンスが妨げられています。
人間の好みの調整における Direct Preference Optimization (DPO) の現在の進歩と、レコメンデーションにおけるソフトマックス損失の成功に触発され、LM ベースのレコメンダーが好みを区別できるようにランキング情報を LM に注入する Softmax-DPO (S-DPO) を提案します。
ポジティブな点だけに焦点を当てるのではなく、ネガティブな点から項目を見直します。
具体的には、ユーザーの嗜好データに複数のネガティブを組み込み、LM ベースのレコメンダー向けに調整された DPO 損失の代替バージョンを考案します。これは、従来のフルランキングの Plackett-Luce (PL) モデルから部分ランキングに拡張され、ソフトマックス サンプリング戦略に接続されています。

理論的には、S-DPO をネガティブ サンプリング上のソフトマックス損失で橋渡しし、ハード ネガティブをマイニングするという固有の利点があることがわかり、これによりレコメンデーション タスクにおける卓越した機能が保証されます。
経験的に、3 つの現実世界のデータセットに対して行われた広範な実験により、ユーザーの好みを効果的にモデル化し、推奨アイテムのより良い報酬を提供しながらレコメンデーションのパフォーマンスをさらに向上させる S-DPO の優位性が実証されています。
コードは https://github.com/chenyuxin1999/S-DPO で入手できます。

要約(オリジナル)

Recommender systems aim to predict personalized rankings based on user preference data. With the rise of Language Models (LMs), LM-based recommenders have been widely explored due to their extensive world knowledge and powerful reasoning abilities. Most of the LM-based recommenders convert historical interactions into language prompts, pairing with a positive item as the target response and fine-tuning LM with a language modeling loss. However, the current objective fails to fully leverage preference data and is not optimized for personalized ranking tasks, which hinders the performance of LM-based recommenders. Inspired by the current advancement of Direct Preference Optimization (DPO) in human preference alignment and the success of softmax loss in recommendations, we propose Softmax-DPO (S-DPO) to instill ranking information into the LM to help LM-based recommenders distinguish preferred items from negatives, rather than solely focusing on positives. Specifically, we incorporate multiple negatives in user preference data and devise an alternative version of DPO loss tailored for LM-based recommenders, which is extended from the traditional full-ranking Plackett-Luce (PL) model to partial rankings and connected to softmax sampling strategies. Theoretically, we bridge S-DPO with the softmax loss over negative sampling and find that it has an inherent benefit of mining hard negatives, which assures its exceptional capabilities in recommendation tasks. Empirically, extensive experiments conducted on three real-world datasets demonstrate the superiority of S-DPO to effectively model user preference and further boost recommendation performance while providing better rewards for preferred items. Our codes are available at https://github.com/chenyuxin1999/S-DPO.

arxiv情報

著者 Yuxin Chen,Junfei Tan,An Zhang,Zhengyi Yang,Leheng Sheng,Enzhi Zhang,Xiang Wang,Tat-Seng Chua
発行日 2024-11-07 18:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク