Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation

要約

大規模な言語モデル(LLMS)の進歩に駆られ、それらを推奨タスクに統合することで、強力な意味的理解と迅速な柔軟性により関心が高まっています。
以前の作業は、ユーザーとアイテムのインタラクションまたはメタデータを推奨のプロンプトにエンコードしました。
並行して、テスト時間のスケーリングと強化学習によって後押しされたLLM推論は、数学やコードなどの分野で優れており、推論の痕跡と正確さの信号が明確で、高性能と解釈可能性を可能にします。
ただし、ユーザーのフィードバックが暗黙的であり、推論の監督がないため、これらの推論方法を推奨に直接適用することは効果がありません。
これに対処するために、$ \ textbf {r2rec} $を提案します。これは、ユーザーのアイテムグラフからの相互作用チェーンをサンプリングし、それらを構造化されたマスクプロンプト戦略を介して構造化された相互作用に変換する推論強化された推奨フレームワークを提案します。
これにより、LLMは暗黙的なパターンに基づいて段階的な意思決定をシミュレートできます。
2段階のトレーニングパイプラインを設計します。監視された微調整は、高品質の痕跡からの基本的な推論を教え、補強学習は報酬信号を介して推論を改善し、まばらな明示的な監督を緩和します。
3つの実際のデータセットでの実験では、R2RECがクラシックおよびLLMベースのベースラインを平均$ \ textBF {10.48%} $のhitratio@1および$ \ textBf {131.81%} $の元のLLMを上回ることを示しています。
さらに、明示的な推論チェーンは、決定プロセスを明らかにすることにより、解釈性を高めます。
私たちのコードは、https://anonymous.4open.science/r/r2rec-7c5dで入手できます。

要約(オリジナル)

Driven by advances in Large Language Models (LLMs), integrating them into recommendation tasks has gained interest due to their strong semantic understanding and prompt flexibility. Prior work encoded user-item interactions or metadata into prompts for recommendations. In parallel, LLM reasoning, boosted by test-time scaling and reinforcement learning, has excelled in fields like mathematics and code, where reasoning traces and correctness signals are clear, enabling high performance and interpretability. However, directly applying these reasoning methods to recommendation is ineffective because user feedback is implicit and lacks reasoning supervision. To address this, we propose $\textbf{R2Rec}$, a reasoning-enhanced recommendation framework that samples interaction chains from the user-item graph and converts them into structured interaction-of-thoughts via a progressive masked prompting strategy, with each thought representing stepwise reasoning grounded in interaction context. This allows LLMs to simulate step-by-step decision-making based on implicit patterns. We design a two-stage training pipeline: supervised fine-tuning teaches basic reasoning from high-quality traces, and reinforcement learning refines reasoning via reward signals, alleviating sparse explicit supervision. Experiments on three real-world datasets show R2Rec outperforms classical and LLM-based baselines with an average $\textbf{10.48%}$ improvement in HitRatio@1 and $\textbf{131.81%}$ gain over the original LLM. Furthermore, the explicit reasoning chains enhance interpretability by revealing the decision process. Our code is available at: https://anonymous.4open.science/r/R2Rec-7C5D.

arxiv情報

著者 Keyu Zhao,Fengli Xu,Yong Li
発行日 2025-06-05 14:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク