Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed

要約

強化学習 (RL) は、長期的なユーザー エンゲージメントを捕捉するためのレコメンデーション システムに広く適用されており、これにより滞留時間が改善され、ユーザー維持率が向上します。
短いビデオとライブ ストリームの混合推奨シナリオのコンテキストでは、ライブ ストリーム推奨システム (RS) は、ユーザー リクエストごとに最大 1 つのライブ ストリームをビデオ フィードに挿入するかどうかを決定します。
長期的なユーザー エンゲージメントを最大化するには、ライブ ストリームを正確に割り当てるための最適なライブ ストリーム インジェクション ポリシーを決定することが重要です。
ただし、従来の RL アルゴリズムは発散や不安定性の問題に直面することが多く、これらの問題によりライブ ストリームの割り当てが多すぎる可能性があり、ユーザーの短いビデオへの関心が中断され、ユーザーのアプリ使用時間の減少につながる可能性があります。
これらの課題に対処するために、新しい教師あり学習強化型マルチグループ アクター クリティカル アルゴリズム (SL-MGAC) を提案します。
具体的には、分散低減技術を組み込んだ教師あり学習強化アクター批評フレームワークを導入します。このフレームワークでは、マルチタスク報酬学習が批評学習中のブートストラップエラーの蓄積を制限するのに役立ちます。
さらに、予測の分散を削減し、モデルの安定性を向上させるために、アクター ネットワークとクリティカル ネットワークの両方に対してマルチグループ状態分解モジュールを設計します。
また、過度に貪欲なライブ ストリームの割り当てを防ぐための新しい報酬関数も提案します。
経験的に、オフライン ポリシー評価 (OPE) とオンライン A/B テストを使用して SL-MGAC アルゴリズムを評価します。
実験結果は、提案された方法がプラットフォームレベルの制約の下でベースライン方法を上回るだけでなく、オンラインレコメンデーションシナリオにおいて安定性が向上することを示しています。

要約(オリジナル)

Reinforcement Learning (RL) has been widely applied in recommendation systems to capture long-term user engagement, thus improving dwelling time and improving user retention. In the context of a short video & live stream mixed recommendation scenario, the live stream recommendation system (RS) decides whether to inject at most one live stream into the video feed for each user request. To maximize long-term user engagement, it is crucial to determine an optimal live stream injection policy for accurate live stream allocation. However, traditional RL algorithms often face divergence and instability problems, and these issues may cause too many live stream allocation, which interrupts user’s short video interest and leads to a decrease in the user’s app usage duration. To address these challenges, we propose a novel Supervised Learning-enhanced Multi-Group Actor Critic algorithm (SL-MGAC). Specifically, we introduce a supervised learning-enhanced actor-critic framework that incorporates variance reduction techniques, where multi-task reward learning helps restrict bootstrapping error accumulation during critic learning. Additionally, we design a multi-group state decomposition module for both actor and critic networks to reduce prediction variance and improve model stability. We also propose a novel reward function to prevent overly greedy live stream allocation. Empirically, we evaluate the SL-MGAC algorithm using offline policy evaluation (OPE) and online A/B testing. Experimental results demonstrate that the proposed method not only outperforms baseline methods under the platform-level constraints but also exhibits enhanced stability in online recommendation scenarios.

arxiv情報

著者 Jingxin Liu,Xiang Gao,Yisha Li,Xin Li,Haiyang Lu,Ben Wang
発行日 2025-01-24 12:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク