要約
生物学的ニューラル ネットワークは、多層パーセプトロン (MLP) やコルモゴロフ-アーノルド ネットワーク (KAN) などの現在の人工ニューラル ネットワークよりも質的に優れているように見えます (学習、柔軟性、堅牢性など)。
同時に、それらとは対照的に、基本的に多方向の信号伝播を持ちます~\cite{axon}、確率分布も持ちます。
不確実性の推定に使用されるため、標準の逆伝播トレーニング~\cite{backprop} を使用できないと考えられています。
上記の低レベルの差異を除去する HCR (階層相関再構成) に基づく新しい人工ニューロンが提案されています。ニューロンには、(接続の) 局所結合分布モデルが含まれており、正規化された変数上の結合密度を $(f_\mathbf 間の単なる線形結合として表します)
{j})$ 正規直交多項式: $\rho(\mathbf{x})=\sum_{\mathbf{j}\in B} a_\mathbf{j} f_\mathbf{j}(\mathbf{x})
$ \mathbf{x} \in [0,1]^d$ および $B$ の選択された基底であり、基底の成長は同時分布の完全な記述に近づきます。
$(a_\mathbf{j})$ テンソルをニューロンパラメータとしてさまざまなインデックス合計することにより、例えば次のような簡単な式が得られます。
$E[x|y,z]$、$E[y|x]$ など、任意の方向への伝播に対する条件付き期待値。ペアごとの依存関係に制限すると、KAN のようなパラメータ化に縮退します。
このような HCR ネットワークは、$\rho(y,z|x)$ のような確率分布 (結合) を伝播することもできます。
また、テンソル分解による $(a_\mathbf{j})$ の直接推定や、より生物学的に妥当な情報ボトルネック トレーニングなどの追加のトレーニング アプローチも可能になります。層は隣接層のみに直接影響を与え、次の層に関する情報を最大化するためにコンテンツを最適化します。
ノイズを最小限に抑えるために、前のものを最小限に抑えます。
要約(オリジナル)
Biological neural networks seem qualitatively superior (e.g. in learning, flexibility, robustness) from current artificial like Multi-Layer Perceptron (MLP) or Kolmogorov-Arnold Network (KAN). Simultaneously, in contrast to them: have fundamentally multidirectional signal propagation~\cite{axon}, also of probability distributions e.g. for uncertainty estimation, and are believed not being able to use standard backpropagation training~\cite{backprop}. There are proposed novel artificial neurons based on HCR (Hierarchical Correlation Reconstruction) removing the above low level differences: with neurons containing local joint distribution model (of its connections), representing joint density on normalized variables as just linear combination among $(f_\mathbf{j})$ orthonormal polynomials: $\rho(\mathbf{x})=\sum_{\mathbf{j}\in B} a_\mathbf{j} f_\mathbf{j}(\mathbf{x})$ for $\mathbf{x} \in [0,1]^d$ and $B$ some chosen basis, with basis growth approaching complete description of joint distribution. By various index summations of such $(a_\mathbf{j})$ tensor as neuron parameters, we get simple formulas for e.g. conditional expected values for propagation in any direction, like $E[x|y,z]$, $E[y|x]$, which degenerate to KAN-like parametrization if restricting to pairwise dependencies. Such HCR network can also propagate probability distributions (also joint) like $\rho(y,z|x)$. It also allows for additional training approaches, like direct $(a_\mathbf{j})$ estimation, through tensor decomposition, or more biologically plausible information bottleneck training: layers directly influencing only neighbors, optimizing content to maximize information about the next layer, and minimizing about the previous to minimize the noise.
arxiv情報
著者 | Jarek Duda |
発行日 | 2024-07-01 13:46:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google