Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments

要約

最新のML OPS環境では、モデルの展開は、検証エラーの比較やA/Bテストなどの静的ヒューリスティックに伝統的に依存する重要なプロセスです。
ただし、これらの方法では、モデルのドリフトや予期しないパフォーマンスの劣化など、現実世界の展開の課題に適応するために、人間の介入が必要です。
補強学習、特にマルチアームのバンディット(MAB)アルゴリズムが、モデルの展開決定をより効果的に動的に管理できるかどうかを調査します。
私たちのアプローチにより、展開されたモデルを継続的に評価し、リアルタイムでパフォーマンスの低いモデルをロールバックすることにより、より適応性のある生産環境が可能になります。
2つの実際のデータセットで6つのモデル選択戦略をテストし、RLベースのアプローチがパフォーマンスの従来の方法に一致するか、それを超えることがわかります。
我々の調査結果は、強化学習(RL)ベースのモデル管理が自動化を改善し、手動介入への依存を減らし、展開後モデルの障害に関連するリスクを軽減できることを示唆しています。

要約(オリジナル)

In modern ML Ops environments, model deployment is a critical process that traditionally relies on static heuristics such as validation error comparisons and A/B testing. However, these methods require human intervention to adapt to real-world deployment challenges, such as model drift or unexpected performance degradation. We investigate whether reinforcement learning, specifically multi-armed bandit (MAB) algorithms, can dynamically manage model deployment decisions more effectively. Our approach enables more adaptive production environments by continuously evaluating deployed models and rolling back underperforming ones in real-time. We test six model selection strategies across two real-world datasets and find that RL based approaches match or exceed traditional methods in performance. Our findings suggest that reinforcement learning (RL)-based model management can improve automation, reduce reliance on manual interventions, and mitigate risks associated with post-deployment model failures.

arxiv情報

著者 S. Aaron McClendon,Vishaal Venkatesh,Juan Morinelli
発行日 2025-03-28 16:42:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク