Flexible task abstractions emerge in linear networks with fast and bounded units

要約

動物は任意の時間スケールで変化する動的な環境で生存しますが、このようなデータ分布の変化はニューラル ネットワークにとって課題となります。
変化に適応するために、神経システムは多数のパラメータを変更することがありますが、これは過去の情報を忘れることを伴う遅いプロセスです。
対照的に、動物は分布の変化を活用して、経験の流れをタスクに分割し、それらを内部のタスクの要約に関連付けます。
動物は適切なタスクの抽象化を選択することで柔軟に対応できます。
ただし、このような柔軟なタスクの抽象化がニューラル システムでどのように生じるのかはまだ不明です。
ここでは、重みとゲートが勾配降下法によって共同最適化される線形ゲート ネットワークを解析しますが、ゲートには、より高速なタイムスケール、非負性、および制限されたアクティビティなどのニューロンのような制約があります。
重みが遭遇したタスクまたはサブタスクに特化したモジュールに自己組織化する一方、ゲート層は適切な重みモジュール (タスク抽象化) を切り替える独自の表現を形成することが観察されます。
私たちは学習ダイナミクスを効果的な固有空間に分析的に還元し、好循環を明らかにしました。高速適応ゲートは以前の知識を保護することで重みの特殊化を推進し、重みの特殊化によりゲート層の更新レートが増加します。
ゲート層でのタスクの切り替えは、カリキュラム ブロックのサイズとタスク トレーニングの関数として加速し、認知神経科学の重要な発見を反映しています。
我々は、発見されたタスクの抽象化がタスクとサブタスクの両方の構成を通じて一般化をサポートすることを示し、我々の発見を 2 つのタスク間の非線形ネットワーク切り替えに拡張します。
全体として、私たちの研究は、ニューラルネットワークアーキテクチャにおけるシナプスと神経ゲートの結合勾配降下から生じる動物の認知の柔軟性の理論を提供します。

要約(オリジナル)

Animals survive in dynamic environments changing at arbitrary timescales, but such data distribution shifts are a challenge to neural networks. To adapt to change, neural systems may change a large number of parameters, which is a slow process involving forgetting past information. In contrast, animals leverage distribution changes to segment their stream of experience into tasks and associate them with internal task abstracts. Animals can then respond flexibly by selecting the appropriate task abstraction. However, how such flexible task abstractions may arise in neural systems remains unknown. Here, we analyze a linear gated network where the weights and gates are jointly optimized via gradient descent, but with neuron-like constraints on the gates including a faster timescale, nonnegativity, and bounded activity. We observe that the weights self-organize into modules specialized for tasks or sub-tasks encountered, while the gates layer forms unique representations that switch the appropriate weight modules (task abstractions). We analytically reduce the learning dynamics to an effective eigenspace, revealing a virtuous cycle: fast adapting gates drive weight specialization by protecting previous knowledge, while weight specialization in turn increases the update rate of the gating layer. Task switching in the gating layer accelerates as a function of curriculum block size and task training, mirroring key findings in cognitive neuroscience. We show that the discovered task abstractions support generalization through both task and subtask composition, and we extend our findings to a non-linear network switching between two tasks. Overall, our work offers a theory of cognitive flexibility in animals as arising from joint gradient descent on synaptic and neural gating in a neural network architecture.

arxiv情報

著者 Kai Sandbrink,Jan P. Bauer,Alexandra M. Proca,Andrew M. Saxe,Christopher Summerfield,Ali Hummos
発行日 2025-01-16 16:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC パーマリンク