要約
アクティベーションの個々のニューロンまたは方向の解釈空間は、機械的解釈可能性の重要な要素です。
そのため、ニューロンの説明を自動的に生成するために多くのアルゴリズムが提案されていますが、これらの説明がどれほど信頼できるか、またはどの方法が最良の説明を生成するかは明確ではないことがよくあります。
これは、群衆による評価を介して測定できますが、しばしば騒がしくて高価な場合があり、信頼できない結果につながる可能性があります。
この論文では、評価パイプラインを慎重に分析し、費用対効果の高い非常に正確なクラウドソーシング評価戦略を開発します。
説明が最も活性化する入力と一致するかどうかのみを評価する以前の人間の研究とは対照的に、説明がすべての入力にわたってニューロンの活性化を説明するかどうかを推定します。
これを効果的に推定するために、重要なサンプリングの新しいアプリケーションを導入して、どの入力が評価者に最も価値があるかを判断し、均一なサンプリングと比較して約30倍のコスト削減につながります。
また、クラウドソースの評価に存在するラベルノイズを分析し、複数の評価を集約するベイズメソッドを提案し、同じ精度に必要な評価数がさらに5倍減少します。
最後に、これらの方法を使用して、2つの異なるビジョンモデルで最も一般的な方法によって生成されたニューロンの説明の品質を比較する大規模な研究を実施します。
要約(オリジナル)
Interpreting individual neurons or directions in activations space is an important component of mechanistic interpretability. As such, many algorithms have been proposed to automatically produce neuron explanations, but it is often not clear how reliable these explanations are, or which methods produce the best explanations. This can be measured via crowd-sourced evaluations, but they can often be noisy and expensive, leading to unreliable results. In this paper, we carefully analyze the evaluation pipeline and develop a cost-effective and highly accurate crowdsourced evaluation strategy. In contrast to previous human studies that only rate whether the explanation matches the most highly activating inputs, we estimate whether the explanation describes neuron activations across all inputs. To estimate this effectively, we introduce a novel application of importance sampling to determine which inputs are the most valuable to show to raters, leading to around 30x cost reduction compared to uniform sampling. We also analyze the label noise present in crowd-sourced evaluations and propose a Bayesian method to aggregate multiple ratings leading to a further ~5x reduction in number of ratings required for the same accuracy. Finally, we use these methods to conduct a large-scale study comparing the quality of neuron explanations produced by the most popular methods for two different vision models.
arxiv情報
著者 | Tuomas Oikarinen,Ge Yan,Akshay Kulkarni,Tsui-Wei Weng |
発行日 | 2025-06-09 17:53:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google