Biology-inspired joint distribution neurons based on Hierarchical Correlation Reconstruction allowing for multidirectional neural networks

要約

一般的な人工ニューラル ネットワーク (ANN) は、多層パーセプトロン (MLP) やコルモゴロフ-アーノルド ネットワーク (KAN) などの任意のパラメーター化タイプを想定して、一方向の値伝播のパラメーターを最適化します。
対照的に、生物学的ニューロンの場合、例えば
「活動電位の軸索伝播が両方向に起こることは珍しいことではありません」~\cite{axon} – 軸索が多方向に継続的に動作するように最適化されていることを示唆しています。
さらに、単一のニューロンがモデル化できる統計的依存関係は、単なる (期待される) 値依存ではなく、高次モーメントも含む結合分布全体です。
このようなより不可知性の高い結合分布ニューロンは、(分布または値の) 多方向伝播を可能にします。
$\rho(x|y,z)$ または $\rho(y,z|x)$ を $\rho(x,y,z)$ に代入して正規化します。
このようなニューロン モデルの階層相関再構成 (HCR) について説明します。 $\rho(x,y,z)=\sum_{ijk} a_{ijk} f_i(x) f_j(y) f_k(z)$ 型を仮定します。
多項式基底 $f_i$ での結合分布のパラメータ化。これにより、非線形性、モデルの直接推定と更新を含む柔軟で安価な処理が可能になります。標準的なバックプロパゲーションや、テンソル分解や情報ボトルネックアプローチに至るまでのそのような構造の新しい方法を通じてトレーニングされます。
ペアごとの (入力-出力) 依存関係のみを使用すると、その期待値予測は、多項式としてトレーニングされた活性化関数を使用して KAN のようになり、含まれる積を通じて高次の依存関係を追加することで拡張できます。意識的に解釈可能な方法で、両方の値と値の多方向伝播が可能になります。
確率密度。

要約(オリジナル)

Popular artificial neural networks (ANN) optimize parameters for unidirectional value propagation, assuming some arbitrary parametrization type like Multi-Layer Perceptron (MLP) or Kolmogorov-Arnold Network (KAN). In contrast, for biological neurons e.g. ‘it is not uncommon for axonal propagation of action potentials to happen in both directions’~\cite{axon} – suggesting they are optimized to continuously operate in multidirectional way. Additionally, statistical dependencies a single neuron could model is not just (expected) value dependence, but entire joint distributions including also higher moments. Such more agnostic joint distribution neuron would allow for multidirectional propagation (of distributions or values) e.g. $\rho(x|y,z)$ or $\rho(y,z|x)$ by substituting to $\rho(x,y,z)$ and normalizing. There will be discussed Hierarchical Correlation Reconstruction (HCR) for such neuron model: assuming $\rho(x,y,z)=\sum_{ijk} a_{ijk} f_i(x) f_j(y) f_k(z)$ type parametrization of joint distribution in polynomial basis $f_i$, which allows for flexible, inexpensive processing including nonlinearities, direct model estimation and update, trained through standard backpropagation or novel ways for such structure up to tensor decomposition or information bottleneck approach. Using only pairwise (input-output) dependencies, its expected value prediction becomes KAN-like with trained activation functions as polynomials, can be extended by adding higher order dependencies through included products – in conscious interpretable way, allowing for multidirectional propagation of both values and probability densities.

arxiv情報

著者 Jarek Duda
発行日 2024-06-20 14:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク