Survival of the Fittest Representation: A Case Study with Modular Addition

要約

ニューラル ネットワークがタスクを解決するために複数の異なるアルゴリズムを学習できる場合、トレーニング中にそれらの間でどのように「選択」するのでしょうか?
この質問にアプローチするために、私たちは生態学からインスピレーションを得ています。複数の種が共存すると、最終的には平衡状態に達し、一部が生き残り、他の種が絶滅します。
同様に、初期化時のニューラル ネットワークには多くのソリューション (表現とアルゴリズム) が含まれており、それらはリソース制約による圧力の下で互いに競合し、最終的には「適者」が優先されることを示唆します。
この適者生存仮説を調査するために、モジュラー加算を実行するニューラル ネットワークのケース スタディを実施しました。その結果、これらのネットワークの異なるフーリエ周波数での複数の円形表現がそのような競合ダイナミクスを受け、最後には少数の円だけが生き残ることがわかりました。
初期信号と勾配が高い周波数、つまり「適者」が生き残る可能性が高いことがわかりました。
埋め込み次元を増やすことにより、より多くの生存周波数も観察されます。
種間の力学を記述するロトカ・ヴォルテラ方程式にヒントを得て、円の力学は一連の線形微分方程式によってうまく特徴付けることができることがわかりました。
モジュール加算による結果は、複雑な表現を基本的な相互作用とともにより単純なコンポーネントに分解して、表現のトレーニングのダイナミクスに関する洞察を提供できることを示しています。

要約(オリジナル)

When a neural network can learn multiple distinct algorithms to solve a task, how does it ‘choose’ between them during training? To approach this question, we take inspiration from ecology: when multiple species coexist, they eventually reach an equilibrium where some survive while others die out. Analogously, we suggest that a neural network at initialization contains many solutions (representations and algorithms), which compete with each other under pressure from resource constraints, with the ‘fittest’ ultimately prevailing. To investigate this Survival of the Fittest hypothesis, we conduct a case study on neural networks performing modular addition, and find that these networks’ multiple circular representations at different Fourier frequencies undergo such competitive dynamics, with only a few circles surviving at the end. We find that the frequencies with high initial signals and gradients, the ‘fittest,’ are more likely to survive. By increasing the embedding dimension, we also observe more surviving frequencies. Inspired by the Lotka-Volterra equations describing the dynamics between species, we find that the dynamics of the circles can be nicely characterized by a set of linear differential equations. Our results with modular addition show that it is possible to decompose complicated representations into simpler components, along with their basic interactions, to offer insight on the training dynamics of representations.

arxiv情報

著者 Xiaoman Delores Ding,Zifan Carl Guo,Eric J. Michaud,Ziming Liu,Max Tegmark
発行日 2024-05-27 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク