「74S60」カテゴリーアーカイブ

Analysis of an Idealized Stochastic Polyak Method and its Application to Black-Box Model Distillation

投稿日: 2025年4月3日作成者: jarxiv

要約 SPS $^*$と呼ばれる理想的な確率的ポリックステップサイズの一般的な収 … 続きを読む →

カテゴリー: 15B52, 62L20, 65Y20, 68W20, 68W40, 74S60, 90C06, 90C53, cs.LG, G.1.6 | コメントを受け付けていません

MoMo: Momentum Models for Adaptive Learning Rates

投稿日: 2023年5月15日作成者: jarxiv

要約我々は、どのような運動量法でも使用できる新しい適応的な学習率を提示する。こ … 続きを読む →

カテゴリー: 15B52, 62L20, 65Y20, 68W20, 68W40, 74S60, 90C06, 90C53, cs.LG, G.1.6, math.OC | コメントを受け付けていません