要約
生物学的に触発されたローカル学習ルールである予測コーディング(PC)を接続する最初の理論的枠組みを提示します。
Layerwise PCは、MDLの2部構成のコード目標でブロック座標を実行し、それにより共同で経験的リスクとモデルの複雑さを最小限に抑えることを証明します。
Hoeffdingの不平等と前のプレフィックスコードを使用して、フォーム$ r(\ theta)\ le \^{r}(\ theta) + \ frac {l(\ theta)} {n} $のフォームの斬新な一般化境界を導き出し、フィットと圧縮の間のトレードオフをキャプチャします。
さらに、各PCは、経験的な2部構成のコードレングを単調に減少させ、制約のない勾配降下よりも緊密な高速性リスク境界をもたらすことを証明します。
最後に、繰り返されるPCの更新がブロック調の固定点に収束し、おおよそのMDL最適なソリューションを提供することを示します。
私たちの知る限り、これは、PCトレーニングを受けたディープモデルの正式な一般化と収束保証を提供する最初の結果であり、PCを理論的に根拠のある生物学的にもっともらしい代替品として位置づけます。
要約(オリジナル)
We present the first theoretical framework that connects predictive coding (PC), a biologically inspired local learning rule, with the minimum description length (MDL) principle in deep networks. We prove that layerwise PC performs block-coordinate descent on the MDL two-part code objective, thereby jointly minimizing empirical risk and model complexity. Using Hoeffding’s inequality and a prefix-code prior, we derive a novel generalization bound of the form $R(\theta) \le \^{R}(\theta) + \frac{L(\theta)}{N}$, capturing the tradeoff between fit and compression. We further prove that each PC sweep monotonically decreases the empirical two-part codelength, yielding tighter high-probability risk bounds than unconstrained gradient descent. Finally, we show that repeated PC updates converge to a block-coordinate stationary point, providing an approximate MDL-optimal solution. To our knowledge, this is the first result offering formal generalization and convergence guarantees for PC-trained deep models, positioning PC as a theoretically grounded and biologically plausible alternative to backpropagation.
arxiv情報
著者 | Benjamin Prada,Shion Matsumoto,Abdul Malik Zekri,Ankur Mali |
発行日 | 2025-05-20 17:25:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google