Maelstrom Networks

要約

人工ニューラル ネットワークは、作業記憶をニューラル ネットワークに組み込む方法を考案するのに苦労してきました。
「長期」記憶は学習された重みと見なすことができますが、作業記憶はおそらく、フィードフォワード モデルには欠けている動的活動から構成されます。
トランスフォーマーなどの現在の最先端モデルは、作業メモリを完全に無視し、単純にシーケンスをデータ全体として処理することでこれを「解決」する傾向があります。
ただし、これは、ネットワークがオンライン形式でシーケンスを処理できないことを意味し、メモリ要件の膨大な爆発につながります。
ここでは、制御、リザーバー コンピューティング、ディープ ラーニング、リカレント ニューラル ネットワークの組み合わせにインスピレーションを得て、リカレント ネットワークの強みとフィードフォワード ニューラル ネットワークのパターン マッチング機能を組み合わせた代替パラダイムを提供します。これを \
textit{Maelstrom Networks} パラダイム。
このパラダイムは、反復コンポーネントである \textit{Maelstrom} を未学習のままにし、学習を強力なフィードフォワード ネットワークにオフロードします。
これにより、ネットワークを展開することなく、ネットワークがフィードフォワード トレーニングの強みを活用できるようになり、メモリを新しいニューロモーフィック ハードウェアに実装できるようになります。
これは、データが時間領域で因果的に編成されるという帰納的バイアスを利用する逐次記憶をニューラル ネットワークに与え、環境中を移動するエージェントの「自己」を表す状態をネットワークに吹き込みます。
これは、ネットワークがモジュール化され、新しいデータによる上書きから「保護」される継続的な学習への道にもつながる可能性があります。
これは、現在の非時間的ディープネットワークを悩ませているこれらのパフォーマンス問題の解決に役立つだけでなく、最終的には人工ネットワークに「自己」の感覚を与えることにもつながる可能性があります。

要約(オリジナル)

Artificial Neural Networks has struggled to devise a way to incorporate working memory into neural networks. While the “long term” memory can be seen as the learned weights, the working memory consists likely more of dynamical activity, that is missing from feed-forward models. Current state of the art models such as transformers tend to “solve” this by ignoring working memory entirely and simply process the sequence as an entire piece of data; however this means the network cannot process the sequence in an online fashion, and leads to an immense explosion in memory requirements. Here, inspired by a combination of controls, reservoir computing, deep learning, and recurrent neural networks, we offer an alternative paradigm that combines the strength of recurrent networks, with the pattern matching capability of feed-forward neural networks, which we call the \textit{Maelstrom Networks} paradigm. This paradigm leaves the recurrent component – the \textit{Maelstrom} – unlearned, and offloads the learning to a powerful feed-forward network. This allows the network to leverage the strength of feed-forward training without unrolling the network, and allows for the memory to be implemented in new neuromorphic hardware. It endows a neural network with a sequential memory that takes advantage of the inductive bias that data is organized causally in the temporal domain, and imbues the network with a state that represents the agent’s “self”, moving through the environment. This could also lead the way to continual learning, with the network modularized and “’protected” from overwrites that come with new data. In addition to aiding in solving these performance problems that plague current non-temporal deep networks, this also could finally lead towards endowing artificial networks with a sense of “self”.

arxiv情報

著者 Matthew Evanusa,Cornelia Fermüller,Yiannis Aloimonos
発行日 2024-08-29 15:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE パーマリンク