要約
ディープニューラルネットワーク(DNNS)のトレーニングは、単純なベクターではなくマトリックスとテンソルによって自然に表されるため、構造化された最適化問題です。
この構造表現の下で、勾配は低ランクであり、ヘシアンはほぼブロックごとの対角線であることが広く観察されています。
これらの構造化されたプロパティは、効率的な最適化アルゴリズムを設計するために重要ですが、Adamのような現在の一般的なオプティマイザーが利用することはできません。
このホワイトペーパーでは、構造化された勾配を使用して適応的に更新される前処理者を採用することにより、これらの特性を活用する新しい最適化アルゴリズムASGOを提示します。
細粒の理論分析により、ASGOは既存の構造化された勾配法と比較して優れた収束率を達成することが証明されています。
収束理論に基づいて、ASGOが低ランクおよびブロックごとの対角線特性の恩恵を受けることができることをさらに実証します。
また、ASGOの実用的な変更について説明し、言語モデルタスクに対するアルゴリズムの有効性を経験的に検証します。
要約(オリジナル)
Training deep neural networks (DNNs) is a structured optimization problem, because the parameters are naturally represented by matrices and tensors rather than simple vectors. Under this structural representation, it has been widely observed that gradients are low-rank and Hessians are approximately block-wise diagonal. These structured properties are crucial for designing efficient optimization algorithms but may not be utilized by current popular optimizers like Adam. In this paper, we present a novel optimization algorithm ASGO that capitalizes on these properties by employing a preconditioner that is adaptively updated using structured gradients. By fine-grained theoretical analysis, ASGO is proven to achieve superior convergence rates compared to existing structured gradient methods. Based on the convergence theory, we further demonstrate that ASGO can benefit from the low-rank and block-wise diagonal properties. We also discuss practical modifications of ASGO and empirically verify the effectiveness of the algorithm on language model tasks.
arxiv情報
著者 | Kang An,Yuxing Liu,Rui Pan,Shiqian Ma,Donald Goldfarb,Tong Zhang |
発行日 | 2025-03-26 17:50:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google