CaAdam: Improving Adam optimizer using connection aware methods

要約

収束速度を向上させ、より優れた損失関数の最小値を達成する、Adam からインスピレーションを得た新しい手法を導入します。
Adam を含む従来のオプティマイザーは、アーキテクチャの詳細を考慮せずに、ニューラル ネットワーク全体に均一またはグローバルに調整された学習率を適用します。
このアーキテクチャに依存しないアプローチは、ほとんどの深層学習フレームワークに深く組み込まれており、オプティマイザーはネットワークの構造情報に直接アクセスせずにスタンドアロン モジュールとして実装されます。
たとえば、Keras や PyTorch などの一般的なフレームワークでは、オプティマイザーはレイヤーの接続性やネットワーク トポロジの知識がなく、勾配とパラメーターのみを操作します。
私たちのアルゴリズム CaAdam は、慎重に設計されたアーキテクチャ情報のプロキシを通じて接続を意識した最適化を導入することで、この見落とされている領域を探索します。
私たちは、層の深さ、接続数、勾配分布などの簡単にアクセスできる構造特性に基づいて学習率を動的に調整する複数のスケーリング手法を提案します。
このアプローチにより、現在の深層学習フレームワークの制約内で動作しながら、より詳細な最適化が可能になります。
標準データセット (CIFAR-10、ファッション MNIST など) の経験的評価では、私たちの手法が標準の Adam オプティマイザーと比較してより高速な収束とより高い精度を一貫して達成していることが示されており、最適化戦略にアーキテクチャの認識を組み込むことの潜在的な利点が実証されています。

要約(オリジナル)

We introduce a new method inspired by Adam that enhances convergence speed and achieves better loss function minima. Traditional optimizers, including Adam, apply uniform or globally adjusted learning rates across neural networks without considering their architectural specifics. This architecture-agnostic approach is deeply embedded in most deep learning frameworks, where optimizers are implemented as standalone modules without direct access to the network’s structural information. For instance, in popular frameworks like Keras or PyTorch, optimizers operate solely on gradients and parameters, without knowledge of layer connectivity or network topology. Our algorithm, CaAdam, explores this overlooked area by introducing connection-aware optimization through carefully designed proxies of architectural information. We propose multiple scaling methodologies that dynamically adjust learning rates based on easily accessible structural properties such as layer depth, connection counts, and gradient distributions. This approach enables more granular optimization while working within the constraints of current deep learning frameworks. Empirical evaluations on standard datasets (e.g., CIFAR-10, Fashion MNIST) show that our method consistently achieves faster convergence and higher accuracy compared to standard Adam optimizer, demonstrating the potential benefits of incorporating architectural awareness in optimization strategies.

arxiv情報

著者 Remi Genet,Hugo Inzirillo
発行日 2024-10-31 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク