MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection

要約

最新のニューラルネットワークは、多くの場合、すべての入力に対してすべてのニューロンをアクティブにし、不必要な計算と非効率性につながります。
Matrix Interpolated Dropout Layer(MID-L)を導入します。これは、学習された入力依存性ゲーティングベクターを介して2つの変換パス間を補間することにより、最も有益なニューロンのみを動的に選択およびアクティブにする新​​しいモジュールです。
従来のドロップアウトや静的なスパースの方法とは異なり、MID-Lは微分可能なTOP-Kマスキング戦略を採用しており、入力あたりの適応計算を可能にしながら、エンドツーエンドの分化性を維持します。
Mid-Lはモデルに依存しており、既存のアーキテクチャにシームレスに統合します。
MNIST、CIFAR-10、CIFAR-100、SVHN、UCI成体、IMDBを含む6つのベンチマークでの広範な実験は、MID-Lがアクティブニューロンの平均55%の減少、1.7 $ \ $ $ flopsの節約、およびベースライン精度を維持または超えることを示しています。
さらに、スライスされた相互情報(SMI)を介して学習したニューロンの情報と選択性をさらに検証し、過度に適合してうるさいデータ条件下での堅牢性の改善を観察します。
さらに、MID-Lは好ましい推論潜時とメモリ使用量プロファイルを示しており、それを計算制約システムの研究探査と展開の両方に適しています。
これらの結果は、MID-Lを汎用、プラグアンドプレイの動的計算層として位置付け、ドロップアウトの正規化と効率的な推論とのギャップを埋めます。

要約(オリジナル)

Modern neural networks often activate all neurons for every input, leading to unnecessary computation and inefficiency. We introduce Matrix-Interpolated Dropout Layer (MID-L), a novel module that dynamically selects and activates only the most informative neurons by interpolating between two transformation paths via a learned, input-dependent gating vector. Unlike conventional dropout or static sparsity methods, MID-L employs a differentiable Top-k masking strategy, enabling per-input adaptive computation while maintaining end-to-end differentiability. MID-L is model-agnostic and integrates seamlessly into existing architectures. Extensive experiments on six benchmarks, including MNIST, CIFAR-10, CIFAR-100, SVHN, UCI Adult, and IMDB, show that MID-L achieves up to average 55\% reduction in active neurons, 1.7$\times$ FLOPs savings, and maintains or exceeds baseline accuracy. We further validate the informativeness and selectivity of the learned neurons via Sliced Mutual Information (SMI) and observe improved robustness under overfitting and noisy data conditions. Additionally, MID-L demonstrates favorable inference latency and memory usage profiles, making it suitable for both research exploration and deployment on compute-constrained systems. These results position MID-L as a general-purpose, plug-and-play dynamic computation layer, bridging the gap between dropout regularization and efficient inference.

arxiv情報

著者 Pouya Shaeri,Ariane Middel
発行日 2025-05-16 16:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク