要約
2 つの神経システムが同じであると言えるのはどのような場合ですか?
この質問に対する答えは目標によって異なり、多くの場合、表現類似性分析 (RSA) やセンタード カーネル アライメント (CKA) などの相関手法を通じて解決されます。
因果関係の探索を省略すると何が見落とされるのでしょうか?また、特定のタイプの類似性をターゲットにするにはどうすればよいでしょうか?
この研究では、分散表現の類似性を因果的に探索する方法であるモデル アライメント検索 (MAS) を紹介します。
この方法は、因果情報を自由に交換できる 2 つの分散ネットワーク表現間の部分空間を調整する可逆線形変換を学習します。
まず、この方法を使用して、計数タスク内の項目数などの特定の因果変数を、異なるトレーニング シードを持つネットワーク間で転送できることを示します。
次に、構造的に異なる数値タスクでトレーニングされたモデルのさまざまなタイプの数値表現を比較することで、数認識における未解決の疑問を調査します。
次に、MAS と既存の因果的類似性手法の違いを調査し、MAS が望ましくない交換に対してより耐性があることを示します。
最後に、トレーニング用の 2 つのモデルのいずれかに因果的にアクセスできない場合でも、因果関係のある調整を形成するのに役立つ、反事実的な潜在補助損失関数を導入します。
要約(オリジナル)
When can we say that two neural systems are the same? The answer to this question is goal-dependent, and it is often addressed through correlative methods such as Representational Similarity Analysis (RSA) and Centered Kernel Alignment (CKA). What do we miss when we forgo causal explorations, and how can we target specific types of similarity? In this work, we introduce Model Alignment Search (MAS), a method for causally exploring distributed representational similarity. The method learns invertible linear transformations that align a subspace between two distributed networks’ representations where causal information can be freely interchanged. We first show that the method can be used to transfer specific causal variables, such as the number of items in a counting task, between networks with different training seeds. We then explore open questions in number cognition by comparing different types of numeric representations in models trained on structurally different numeric tasks. We then explore differences between MAS vs preexisting causal similarity methods, showing MAS to be more resistant to unwanted exchanges. Lastly, we introduce a counterfactual latent auxiliary loss function that helps shape causally relevant alignments even in cases where we do not have causal access to one of the two models for training.
arxiv情報
著者 | Satchel Grant |
発行日 | 2025-01-10 18:39:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google