要約
多層 \emph{sign} パーセプトロン ニューラル ネットワーク (SPNN) の記憶機能を検討します。
\cite{Stojnictcmspnncaprdt23} でランダム双対性理論 (RDT) を利用して得られた最近の厳密な上限容量特性評価では、ネットワーク構成にニューロンを追加することが実際に非常に有益である可能性があることが実証されました。
さらに、隠れ層に $d\leq 5$ ニューロンを備えた特定の \emph{ツリー状委員会マシン} (TCM) アーキテクチャに関して、\cite{Stojnictcmspnncaprdt23} は、以前に最もよく知られていたニューロンを下げることにより、30 年以上で初めて数学的に厳密な進歩を遂げました。
\cite{MitchDurb89} の容量制限。
ここで、まず \cite{Stojnictcmspnncaprdt23} からの RDT 境界が $\sim \sqrt{d}$ としてスケールされ、それ自体では \emph{universally} ($d$ の範囲全体にわたって) 最良のものを上回ることはできないことを確立します。
\cite{MitchDurb89} からの既知の $\sim \log(d)$ 境界のスケーリング。
したがって、 \cite{Stojnictcmspnncaprdt23} からの進歩は有望であるものの、まだ完全に具体化されていないことを認識した後、代替手段として最近開発された完全にリフトされた RDT (fl RDT) を検討することに進みます。
fl RDT は確かに強力な巨人ですが、通常は大量の数値評価に依存しています。
このような重い数値を避けるために、ここでは単純化された \emph{部分的に解除された} バリアントに焦点を当て、それが非常にきちんとした閉じた形式の分析能力の特性評価を可能にすることを示します。
さらに、\emph{any} $d$ に対して \cite{MitchDurb89} の最もよく知られたものよりも \emph{普遍的に} 改善される具体的な容量限界も得られます。
要約(オリジナル)
We consider the memorization capabilities of multilayered \emph{sign} perceptrons neural networks (SPNNs). A recent rigorous upper-bounding capacity characterization, obtained in \cite{Stojnictcmspnncaprdt23} utilizing the Random Duality Theory (RDT), demonstrated that adding neurons in a network configuration may indeed be very beneficial. Moreover, for particular \emph{treelike committee machines} (TCM) architectures with $d\leq 5$ neurons in the hidden layer, \cite{Stojnictcmspnncaprdt23} made a very first mathematically rigorous progress in over 30 years by lowering the previously best known capacity bounds of \cite{MitchDurb89}. Here, we first establish that the RDT bounds from \cite{Stojnictcmspnncaprdt23} scale as $\sim \sqrt{d}$ and can not on their own \emph{universally} (over the entire range of $d$) beat the best known $\sim \log(d)$ scaling of the bounds from \cite{MitchDurb89}. After recognizing that the progress from \cite{Stojnictcmspnncaprdt23} is therefore promising, but yet without a complete concretization, we then proceed by considering the recently developed fully lifted RDT (fl RDT) as an alternative. While the fl RDT is indeed a powerful juggernaut, it typically relies on heavy numerical evaluations. To avoid such heavy numerics, we here focus on a simplified, \emph{partially lifted}, variant and show that it allows for very neat, closed form, analytical capacity characterizations. Moreover, we obtain the concrete capacity bounds that \emph{universally} improve for \emph{any} $d$ over the best known ones of \cite{MitchDurb89}.
arxiv情報
著者 | Mihailo Stojnic |
発行日 | 2023-12-13 16:19:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google