Associative memory and dead neurons

要約

「神経生物学と機械学習における大規模な連想記憶問題」で、ドミトリー・クロトフとジョン・ホップフィールドは、非増加エネルギーまたはリアプノフ関数を備えた神経の通常の微分方程式の体系的な構築のための一般的な手法を導入しました。
このエネルギー機能を研究し、死んだニューロンの問題に対して脆弱であることを特定します。
ニューロンが死ぬ状態空間の各ポイントは、一定のエネルギーを持つ非コンパクト領域に含まれています。
これらのフラット領域では、エネルギー関数のみがすべての自由度を完全に決定するわけではなく、その結果、安定性を分析したり、定常状態または引力の盆地を見つけるために使用することはできません。
動的システムの直接的な分析を実行し、死んだニューロンに対応する平らな方向に起因する問題を解決する方法を示します。(i)固定点での状態ベクターに関するすべての情報は、エネルギーとヘシアンマトリックス(ii)から抽出することができます。
ヘシアンマトリックスの分析は、現実的なアーキテクチャのために複雑になる可能性があるため、わずかに変化した動的システム(定常状態と同じ構造を持つ)では、死んだニューロンに対応するフラット領域を持たないリアプノフ関数の多様なファミリーを導出できることを示しています。
さらに、これらのエネルギー関数により、必ずしも明確ではないヘシアンマトリックスでラグランジュ関数を使用することができ、非対称のフィードフォワードとフィードバック接続を備えたアーキテクチャを検討することさえできます。

要約(オリジナル)

In ‘Large Associative Memory Problem in Neurobiology and Machine Learning,’ Dmitry Krotov and John Hopfield introduced a general technique for the systematic construction of neural ordinary differential equations with non-increasing energy or Lyapunov function. We study this energy function and identify that it is vulnerable to the problem of dead neurons. Each point in the state space where the neuron dies is contained in a non-compact region with constant energy. In these flat regions, energy function alone does not completely determine all degrees of freedom and, as a consequence, can not be used to analyze stability or find steady states or basins of attraction. We perform a direct analysis of the dynamical system and show how to resolve problems caused by flat directions corresponding to dead neurons: (i) all information about the state vector at a fixed point can be extracted from the energy and Hessian matrix (of Lagrange function), (ii) it is enough to analyze stability in the range of Hessian matrix, (iii) if steady state touching flat region is stable the whole flat region is the basin of attraction. The analysis of the Hessian matrix can be complicated for realistic architectures, so we show that for a slightly altered dynamical system (with the same structure of steady states), one can derive a diverse family of Lyapunov functions that do not have flat regions corresponding to dead neurons. In addition, these energy functions allow one to use Lagrange functions with Hessian matrices that are not necessarily positive definite and even consider architectures with non-symmetric feedforward and feedback connections.

arxiv情報

著者 Vladimir Fanaskov,Ivan Oseledets
発行日 2025-02-26 17:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE, q-bio.NC パーマリンク