Determinantal Point Process Attention Over Grid Cell Code Supports Out of Distribution Generalization

要約

ディープ ニューラル ネットワークは、人間のような知能をエミュレートする上で多大な進歩を遂げ、脳が依存する複雑な計算問題をどのように解決するかを理解する方法として使用されることが増えています。
しかし、これらはまだ不十分であり、人間が能力を発揮できる強力な一般化を脳がどのようにサポートしているかについての洞察を提供することはできません。
そのようなケースの 1 つは、トレーニング セットの分布外にあるテスト例に対する分布外 (OOD) 一般化の成功パフォーマンスです。
ここでは、この能力に寄与する可能性のある脳内処理の特性を特定します。
ニューラル コンピューティングの特定の機能を利用して OOD の一般化を達成する 2 つの部分からなるアルゴリズムについて説明し、2 つの困難な認知タスクのパフォーマンスを評価することで概念実証を提供します。
まず、哺乳類の脳は、グリッドセルコード(たとえば、嗅内皮質)を使用して計量空間を表現しているという事実を利用します。これは、表現空間を覆う繰り返しのモチーフで組織された、関係構造の抽象的な表現です。
第 2 に、決定点プロセス (DPP) を使用してグリッド セル コード上で動作するアテンション メカニズムを提案します。これを DPP アテンション (DPP-A) と呼びます。これは、その空間のカバレッジ内で最大限のスパース性を保証する変換です。
標準的なタスク最適化誤差と DPP-A を組み合わせた損失関数は、グリッド セル コード内の繰り返しモチーフを活用でき、一般的なアーキテクチャと統合して、類推タスクおよび算術タスクで強力な OOD 一般化パフォーマンスを達成できることを示します。
これは、哺乳類の脳のグリッド セル コードが汎化性能にどのように寄与するかについての解釈を提供すると同時に、人工ニューラル ネットワークのそのような機能を改善するための潜在的な手段を提供します。

要約(オリジナル)

Deep neural networks have made tremendous gains in emulating human-like intelligence, and have been used increasingly as ways of understanding how the brain may solve the complex computational problems on which this relies. However, these still fall short of, and therefore fail to provide insight into how the brain supports strong forms of generalization of which humans are capable. One such case is out-of-distribution (OOD) generalization-successful performance on test examples that lie outside the distribution of the training set. Here, we identify properties of processing in the brain that may contribute to this ability. We describe a two-part algorithm that draws on specific features of neural computation to achieve OOD generalization, and provide a proof of concept by evaluating performance on two challenging cognitive tasks. First we draw on the fact that the mammalian brain represents metric spaces using grid cell code (e.g., in entorhinal cortex): abstract representations of relational structure, organized in recurring motifs that cover the representational space. Second, we propose an attentional mechanism that operates over the grid cell code using Determinantal Point Process (DPP), that we call DPP attention (DPP-A) — a transformation that ensures maximum sparseness in the coverage of that space. We show that a loss function that combines standard task-optimized error with DPP-A can exploit the recurring motifs in the grid cell code, and can be integrated with common architectures to achieve strong OOD generalization performance on analogy and arithmetic tasks. This provides both an interpretation of how the grid cell code in the mammalian brain may contribute to generalization performance, and at the same time a potential means for improving such capabilities in artificial neural networks.

arxiv情報

著者 Shanka Subhra Mondal,Steven Frankland,Taylor Webb,Jonathan D. Cohen
発行日 2024-01-18 15:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC パーマリンク