CAdam: Confidence-Based Optimization for Online Learning

要約

最新のレコメンデーション システムでは、オンライン学習を頻繁に採用し、新しく収集したデータでモデルを動的に更新します。
これらのコンテキストでニューラル ネットワークを更新するために最も一般的に使用されるオプティマイザーは、運動量 ($m_t$) と適応学習率 ($v_t$) を統合する Adam オプティマイザーです。
ただし、頻繁な分布の変化とノイズの存在を特徴とするオンライン学習データの不安定な性質は、Adam の標準的な最適化プロセスに重大な課題をもたらします。(1) Adam は古い運動量と 2 乗勾配の平均を使用する可能性があり、その結果、学習データへの適応が遅くなる可能性があります。
(2) Adam のパフォーマンスはデータ ノイズによって悪影響を受けます。
これらの問題を軽減するために、更新を決定する前に各パラメーター次元の運動量と勾配の間の一貫性を評価する信頼性に基づく最適化戦略である CAdam を導入します。
運動量と勾配が同期している場合、CAdam は Adam の元の定式化に従ってパラメータの更新を続行します。
そうでない場合は、更新を一時的に保留し、後続の反復でデータ分散の潜在的な変化を監視します。
この方法により、CAdam は真の分布シフトと単なるノイズを区別し、新しいデータ分布により迅速に適応できるようになります。
合成データセットと現実世界のデータセットの両方を使った実験では、CAdam が効率とノイズ耐性の点で、オリジナルの Adam を含む他のよく知られたオプティマイザーを上回っていることが実証されました。
さらに、ライブ レコメンデーション システム内での大規模な A/B テストでは、CAdam は Adam と比較してモデルのパフォーマンスを大幅に向上させ、システムの流通総額 (GMV) の大幅な増加につながります。

要約(オリジナル)

Modern recommendation systems frequently employ online learning to dynamically update their models with freshly collected data. The most commonly used optimizer for updating neural networks in these contexts is the Adam optimizer, which integrates momentum ($m_t$) and adaptive learning rate ($v_t$). However, the volatile nature of online learning data, characterized by its frequent distribution shifts and presence of noises, poses significant challenges to Adam’s standard optimization process: (1) Adam may use outdated momentum and the average of squared gradients, resulting in slower adaptation to distribution changes, and (2) Adam’s performance is adversely affected by data noise. To mitigate these issues, we introduce CAdam, a confidence-based optimization strategy that assesses the consistence between the momentum and the gradient for each parameter dimension before deciding on updates. If momentum and gradient are in sync, CAdam proceeds with parameter updates according to Adam’s original formulation; if not, it temporarily withholds updates and monitors potential shifts in data distribution in subsequent iterations. This method allows CAdam to distinguish between the true distributional shifts and mere noise, and adapt more quickly to new data distributions. Our experiments with both synthetic and real-world datasets demonstrate that CAdam surpasses other well-known optimizers, including the original Adam, in efficiency and noise robustness. Furthermore, in large-scale A/B testing within a live recommendation system, CAdam significantly enhances model performance compared to Adam, leading to substantial increases in the system’s gross merchandise volume (GMV).

arxiv情報

著者 Shaowen Wang,Anan Liu,Jian Xiao,Huan Liu,Yuekui Yang,Cong Xu,Qianqian Pu,Suncong Zheng,Wei Zhang,Jian Li
発行日 2024-11-29 12:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク