Cluster-Based Normalization Layer for Neural Networks

要約

ディープラーニングは、ニューラル ネットワークのトレーニング中に、内部共変量シフト、ラベル シフト、勾配の消失/爆発、過学習、計算の複雑さなどの重大な課題に直面します。
バッチ正規化などの従来の正規化手法は、これらの問題の一部に対処することを目的としていますが、多くの場合、適応性を制約する仮定に依存しています。
混合正規化は、複数のガウス分布を処理する際に計算上のハードルに直面します。
このペーパーでは、教師ありクラスターベース正規化 (SCB-Norm) と教師なしクラスターベース正規化 (UCB-Norm) の 2 つのバリエーションでクラスターベース正規化 (CB-Norm) を紹介し、画期的なワンステップ正規化アプローチを提案します。
CB-Norm は、混合ガウス モデルを活用して、勾配の安定性と学習の加速に関連する課題に特に対処します。
教師ありバリアントである SCB-Norm の場合、新しいメカニズムには、割り当てられたクラスターに基づいてアクティベーションを正規化するために、クラスターと呼ばれる事前定義されたデータ分割の導入が含まれます。
このクラスター駆動のアプローチは、混合ガウス モデルに準拠した空間を作成します。
一方、教師なし対応の UCB-Norm は、トレーニング中にニューロンの活性化を動的にクラスター化し、事前定義されたデータ パーティション (クラスター) に依存せずにタスク固有の課題に適応します。
この 2 つのアプローチにより、多様な学習シナリオに柔軟に対応できます。
CB-Norm は革新的に 1 ステップの正規化アプローチを使用し、各混合コンポーネント (活性化空間内のクラスター) のパラメーターがディープ ニューラル ネットワークの重みとして機能します。
この適応クラスタリング プロセスは、トレーニング中にクラスタリングとディープ ニューラル ネットワーク タスクの解決の両方に同時に取り組み、この分野での顕著な進歩を意味します。

要約(オリジナル)

Deep learning faces significant challenges during the training of neural networks, including internal covariate shift, label shift, vanishing/exploding gradients, overfitting, and computational complexity. While conventional normalization methods, such as Batch Normalization, aim to tackle some of these issues, they often depend on assumptions that constrain their adaptability. Mixture Normalization faces computational hurdles in its pursuit of handling multiple Gaussian distributions. This paper introduces Cluster-Based Normalization (CB-Norm) in two variants – Supervised Cluster-Based Normalization (SCB-Norm) and Unsupervised Cluster-Based Normalization (UCB-Norm) – proposing a groundbreaking one-step normalization approach. CB-Norm leverages a Gaussian mixture model to specifically address challenges related to gradient stability and learning acceleration. For SCB-Norm, a supervised variant, the novel mechanism involves introducing predefined data partitioning, termed clusters, to normalize activations based on the assigned cluster. This cluster-driven approach creates a space that conforms to a Gaussian mixture model. On the other hand, UCB-Norm, an unsupervised counterpart, dynamically clusters neuron activations during training, adapting to task-specific challenges without relying on predefined data partitions (clusters). This dual approach ensures flexibility in addressing diverse learning scenarios. CB-Norm innovatively uses a one-step normalization approach, where parameters of each mixture component (cluster in activation space) serve as weights for deep neural networks. This adaptive clustering process tackles both clustering and resolution of deep neural network tasks concurrently during training, signifying a notable advancement in the field.

arxiv情報

著者 Bilal Faye,Hanane Azzag,Mustapha Lebbah
発行日 2024-03-25 14:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク