要約
ニューラルネットワークの機能をより良く理解するために、線形分類器プローブが頻繁に利用されている。研究者たちは、学習された内部表現をプローブすることによって、ニューラルネットワークにおけるユニットの重要性を決定する問題に取り組んできた。線形分類器プローブは、ネットワーク機能にとって最も重要なユニットとして、高度に選択的なユニットを識別する。ネットワークが実際に高選択性ユニットに依存しているかどうかは、アブレーションを使ってネットワークからユニットを除去することで検証できる。驚くべきことに、高選択性ユニットを切除した場合、わずかなパフォーマンス低下しか生じず、それもいくつかのケースに限られる。選択的ニューロンに対するアブレーション効果がないにもかかわらず、線形解読法はネットワーク機能を解釈するのに有効であり、その有効性は謎のままである。我々は、ネットワーク機能における選択性の排他的役割を偽り、この矛盾を解決するために、活性化空間の小領域にあるユニット群を系統的にアブレーションすることにした。その結果、プローブによって同定された神経細胞とアブレーションによって同定された神経細胞の間に弱い関係があることがわかった。具体的には、AlexNet、VGG16、MobileNetV2、ResNet101において、選択性とユニットの平均活性の相互作用が、アブレーションの性能低下をより良く予測することが分かった。線形デコーダは、ネットワーク機能にとって因果的に重要なユニットと重なるため、ある程度有効であると考えられる。因果的に重要なユニットに着目することで、解釈可能な手法が改善される可能性がある。
要約(オリジナル)
Linear classifier probes are frequently utilized to better understand how neural networks function. Researchers have approached the problem of determining unit importance in neural networks by probing their learned, internal representations. Linear classifier probes identify highly selective units as the most important for network function. Whether or not a network actually relies on high selectivity units can be tested by removing them from the network using ablation. Surprisingly, when highly selective units are ablated they only produce small performance deficits, and even then only in some cases. In spite of the absence of ablation effects for selective neurons, linear decoding methods can be effectively used to interpret network function, leaving their effectiveness a mystery. To falsify the exclusive role of selectivity in network function and resolve this contradiction, we systematically ablate groups of units in subregions of activation space. Here, we find a weak relationship between neurons identified by probes and those identified by ablation. More specifically, we find that an interaction between selectivity and the average activity of the unit better predicts ablation performance deficits for groups of units in AlexNet, VGG16, MobileNetV2, and ResNet101. Linear decoders are likely somewhat effective because they overlap with those units that are causally important for network function. Interpretability methods could be improved by focusing on causally important units.
arxiv情報
著者 | Lucas Hayne,Abhijit Suresh,Hunar Jain,Rahul Kumar,R. McKell Carter |
発行日 | 2022-11-08 16:43:02+00:00 |
arxivサイト | arxiv_id(pdf) |