The Persian Rug: solving toy models of superposition using large-scale symmetries

要約

大きな入力次元の制限内で最小の非線形スパース データ オートエンコーダによって学習されるアルゴリズムの完全なメカニズムの説明を示します。
このモデルは、もともと arXiv:2209.10652 で提示されたもので、線形層を通じてスパース データ ベクトルを圧縮し、別の線形層を使用して解凍し、続いて ReLU アクティベーションを実行します。
データが順列対称である (入力特徴に特権がない) 場合、大規模モデルは大規模な統計を通じてのみ、個々の重みに敏感なアルゴリズムを確実に学習することがわかります。
これらのモデルの場合、損失関数は解析的に扱いやすくなります。
この理解を使用して、高いスパース性での損失の明示的なスケーリングを与え、このモデルが最近提案されたアーキテクチャの中で最適に近いことを示します。
特に、要素ごとの操作またはフィルタリング操作を活性化関数に変更または追加すると、モデルのパフォーマンスはせいぜい一定の係数で向上します。
最後に、必要な対称性を備えたモデルをフォワード エンジニアリングし、その損失がトレーニング済みモデルの損失と正確に一致することを示します。
トレーニングされたモデルの重みとは異なり、人工重みのランダム性が低いため、ペルシャ絨毯に似た奇跡的なフラクタル構造が生成されますが、アルゴリズムはそれを認識しません。
私たちの研究は、オートエンコーダーの構造を理解するための技術を導入することにより、ニューラル ネットワークの解釈可能性に貢献しています。
結果を再現するコードは https://github.com/KfirD/PersianRug にあります。

要約(オリジナル)

We present a complete mechanistic description of the algorithm learned by a minimal non-linear sparse data autoencoder in the limit of large input dimension. The model, originally presented in arXiv:2209.10652, compresses sparse data vectors through a linear layer and decompresses using another linear layer followed by a ReLU activation. We notice that when the data is permutation symmetric (no input feature is privileged) large models reliably learn an algorithm that is sensitive to individual weights only through their large-scale statistics. For these models, the loss function becomes analytically tractable. Using this understanding, we give the explicit scalings of the loss at high sparsity, and show that the model is near-optimal among recently proposed architectures. In particular, changing or adding to the activation function any elementwise or filtering operation can at best improve the model’s performance by a constant factor. Finally, we forward-engineer a model with the requisite symmetries and show that its loss precisely matches that of the trained models. Unlike the trained model weights, the low randomness in the artificial weights results in miraculous fractal structures resembling a Persian rug, to which the algorithm is oblivious. Our work contributes to neural network interpretability by introducing techniques for understanding the structure of autoencoders. Code to reproduce our results can be found at https://github.com/KfirD/PersianRug .

arxiv情報

著者 Aditya Cowsik,Kfir Dolev,Alex Infanger
発行日 2024-10-22 17:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.AI, cs.LG パーマリンク