U(1) Symmetry-breaking Observed in Generic CNN Bottleneck Layers

要約

深い畳み込みニューラル ネットワーク (CNN) を生物学的視覚および基本的な素粒子物理学にリンクする新しいモデルについて報告します。
CNN での情報伝搬は、光学システムへの類推によってモデル化されます。そこでは、2D 空間解像度が焦点 $1\times 1=1$ の周りで崩壊するボトルネックの近くに情報が集中します。
3D 空間 $(x,y,t)$ は、イメージ プレーンの $(x,y)$ 座標と CNN レイヤー $t$ によって定義されます。ここで、主光線 $(0,0,t)$ は
光軸と $(x,y)=(0,0)$ に位置する画像中心ピクセルの両方を通る情報伝播の方向。これについては、可能な限り最も鮮明な空間焦点が画像平面の錯乱円に制限されます。
私たちの新しい洞察は、主光線 $(0,0,t)$ を $N$ の R^{N+}$ の正のオルサント $I(x,y) \in の中間ベクトルに幾何学的に等価なものとしてモデル化することです
-チャネルアクティベーションスペース。
$RGB$ 色空間のグレースケール (または輝度) ベクトル $(t,t,t)$ に沿って。
したがって、情報はエネルギー ポテンシャル $E(x,y,t)=\|I(x,y,t)\|^2$ に集中します。これは、特に汎用 CNN のボトルネック層 $t$ の場合、高度に集中します。
空間原点 $(0,0,t)$ について対称であり、ボソン粒子のよく知られた「ソンブレロ」ポテンシャルを示します。
この対称性は分類で破られ、一般的な事前トレーニング済み CNN モデルのボトルネック層は、画像平面と活性化特徴空間で同時に定義された角度 $\theta \in U(1)$ に向かって一貫したクラス固有のバイアスを示します。
初期の観察では、トレーニングやチューニングを行わずに、一般的な事前トレーニング済みの CNN アクティベーション マップと最小限のメモリベースの分類スキームから仮説を検証します。
ワンホット $+ U(1)$ 損失を組み合わせてゼロからトレーニングすると、ImageNet を含むテストされたすべてのタスクの分類が改善されます。

要約(オリジナル)

We report on a novel model linking deep convolutional neural networks (CNN) to biological vision and fundamental particle physics. Information propagation in a CNN is modeled via an analogy to an optical system, where information is concentrated near a bottleneck where the 2D spatial resolution collapses about a focal point $1\times 1=1$. A 3D space $(x,y,t)$ is defined by $(x,y)$ coordinates in the image plane and CNN layer $t$, where a principal ray $(0,0,t)$ runs in the direction of information propagation through both the optical axis and the image center pixel located at $(x,y)=(0,0)$, about which the sharpest possible spatial focus is limited to a circle of confusion in the image plane. Our novel insight is to model the principal optical ray $(0,0,t)$ as geometrically equivalent to the medial vector in the positive orthant $I(x,y) \in R^{N+}$ of a $N$-channel activation space, e.g. along the greyscale (or luminance) vector $(t,t,t)$ in $RGB$ colour space. Information is thus concentrated into an energy potential $E(x,y,t)=\|I(x,y,t)\|^2$, which, particularly for bottleneck layers $t$ of generic CNNs, is highly concentrated and symmetric about the spatial origin $(0,0,t)$ and exhibits the well-known ‘Sombrero’ potential of the boson particle. This symmetry is broken in classification, where bottleneck layers of generic pre-trained CNN models exhibit a consistent class-specific bias towards an angle $\theta \in U(1)$ defined simultaneously in the image plane and in activation feature space. Initial observations validate our hypothesis from generic pre-trained CNN activation maps and a bare-bones memory-based classification scheme, with no training or tuning. Training from scratch using combined one-hot $+ U(1)$ loss improves classification for all tasks tested including ImageNet.

arxiv情報

著者 Louis-François Bouchard,Mohsen Ben Lazreg,Matthew Toews
発行日 2022-08-31 14:35:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク