要約
大規模な推奨モデルは、LLMをエンコードまたはアイテムの生成により強力な推奨者として拡張し、LLMの最近のブレークスルーは、推奨の推奨事項の調査を同期的に動機付けています。
現在の研究では、通常、LLMSを外部推論モジュールとして配置して、従来の推奨パイプラインを強化するための補助思想を生み出しています。
ただし、このような分離された設計は、大幅なリソースコストと最適ではない共同最適化が制限されています。
これらの問題に対処するために、本質的な推論機能を備えた統一された大規模な推奨モデルである\ nameを提案します。
最初に、モデルアーキテクチャを再概念化して、自己回帰プロセスでのインターリーブの推論と推奨を促進します。
その後、単一のポリシーアップデートで同時に推論と推奨機能の両方を最適化する対応する強化学習フレームワークであるRECPOを提案します。
RECPOは、推奨ラベルを活用して推論能力をシミュレートし、専門的な推論アノテーションへの依存を排除する融合報酬スキームを導入します。
さまざまなベースラインを使用した3つのデータセットでの実験\名の有効性が検証され、NDCG@20のHIT@5および45.21 \%の68.67 \%の相対的な改善が示されています。
https://github.com/yryangang/rrecで利用可能なコード。
要約(オリジナル)
Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.
arxiv情報
著者 | Runyang You,Yongqi Li,Xinyu Lin,Xin Zhang,Wenjie Wang,Wenjie Li,Liqiang Nie |
発行日 | 2025-05-22 17:55:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google