Scale Alone Does not Improve Mechanistic Interpretability in Vision Models

要約

最近の AI システムの普及を考慮すると、ニューラル ネットワークの内部情報処理を理解することがますます重要になっています。
ごく最近では、ニューラル ネットワークをデータセットとモデルのサイズにおいて前例のないレベルに拡張することにより、マシン ビジョンが目覚ましい進歩を遂げました。
私たちはここで、この異常な規模の増加が機械論的解釈可能性の分野にもプラスの影響を与えるかどうかを尋ねます。
言い換えれば、スケーリングされたニューラル ネットワークの内部動作についての理解も進んだのでしょうか?
ここでは、心理物理学的パラダイムを使用して、さまざまなモデルスイートのメカニズムの解釈可能性を定量化しますが、モデルにもデータセットサイズにも、解釈可能性に対するスケーリング効果は見出されません。
具体的には、調査された 9 つの最先端モデルのどれも、ほぼ 10 年前の GoogLeNet モデルよりも解釈が容易ではありません。
最新世代のビジョン モデルは、古いアーキテクチャよりもさらに解釈しにくいように見え、最新のモデルは精度のために解釈可能性を犠牲にしており、改善ではなく退化を示唆しています。
これらの結果は、機械的に解釈できるように明示的に設計されたモデルの必要性と、原子レベルでのネットワークの理解を高めるためのより有用な解釈方法の必要性を浮き彫りにしています。
私たちは、9 つ​​のモデルにわたる 767 ユニットの心理物理学的評価から得た 120,000 を超える人間の応答を含むデータセットをリリースします。
このデータセットは、人間ベースではなく自動化された解釈可能性評価の研究を促進することを目的としており、最終的にはモデルの機構的な解釈可能性を直接最適化するために活用できます。

要約(オリジナル)

In light of the recent widespread adoption of AI systems, understanding the internal information processing of neural networks has become increasingly critical. Most recently, machine vision has seen remarkable progress by scaling neural networks to unprecedented levels in dataset and model size. We here ask whether this extraordinary increase in scale also positively impacts the field of mechanistic interpretability. In other words, has our understanding of the inner workings of scaled neural networks improved as well? We here use a psychophysical paradigm to quantify mechanistic interpretability for a diverse suite of models and find no scaling effect for interpretability – neither for model nor dataset size. Specifically, none of the nine investigated state-of-the-art models are easier to interpret than the GoogLeNet model from almost a decade ago. Latest-generation vision models appear even less interpretable than older architectures, hinting at a regression rather than improvement, with modern models sacrificing interpretability for accuracy. These results highlight the need for models explicitly designed to be mechanistically interpretable and the need for more helpful interpretability methods to increase our understanding of networks at an atomic level. We release a dataset containing more than 120’000 human responses from our psychophysical evaluation of 767 units across nine models. This dataset is meant to facilitate research on automated instead of human-based interpretability evaluations that can ultimately be leveraged to directly optimize the mechanistic interpretability of models.

arxiv情報

著者 Roland S. Zimmermann,Thomas Klein,Wieland Brendel
発行日 2023-07-11 17:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク