Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning

要約

閉ループ最適化を通じて推奨システムを備えた大規模な言語モデル(LLMS)をブリッジする一般的な強化学習フレームワークであるRec-R1を提案します。
プロンプトと監視付きの微調整(SFT)とは異なり、REC-R1は、GPT-4Oなどの独自モデルからの合成SFTデータに依存することなく、固定ブラックボックス推奨モデルからのフィードバックを使用してLLM生成を直接最適化します。
これにより、データの蒸留に必要なかなりのコストと努力が回避されます。
REC-R1の有効性を検証するために、製品検索と順次推奨という2つの代表的なタスクで評価します。
実験結果は、REC-R1が一貫してプロンプトベースの方法とSFTベースの方法を上回るだけでなく、BM25などの単純なレトリバーで使用する場合でも、強力な識別ベースラインよりも大きな利益を達成することを示しています。
さらに、REC-R1は、SFTとは異なり、LLMの汎用機能を保持します。
これらの発見は、壊滅的な忘却なしに継続的なタスク固有の適応の有望な基盤としてRec-R1を示唆しています。

要約(オリジナル)

We propose Rec-R1, a general reinforcement learning framework that bridges large language models (LLMs) with recommendation systems through closed-loop optimization. Unlike prompting and supervised fine-tuning (SFT), Rec-R1 directly optimizes LLM generation using feedback from a fixed black-box recommendation model, without relying on synthetic SFT data from proprietary models such as GPT-4o. This avoids the substantial cost and effort required for data distillation. To verify the effectiveness of Rec-R1, we evaluate it on two representative tasks: product search and sequential recommendation. Experimental results demonstrate that Rec-R1 not only consistently outperforms prompting- and SFT-based methods, but also achieves significant gains over strong discriminative baselines, even when used with simple retrievers such as BM25. Moreover, Rec-R1 preserves the general-purpose capabilities of the LLM, unlike SFT, which often impairs instruction-following and reasoning. These findings suggest Rec-R1 as a promising foundation for continual task-specific adaptation without catastrophic forgetting.

arxiv情報

著者 Jiacheng Lin,Tian Wang,Kun Qian
発行日 2025-03-31 16:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク