CLIP-Dissect: Automatic Description of Neuron Representations in Deep Vision Networks

要約

本論文では、視覚ネットワーク内の個々の隠れニューロンの機能を自動的に記述する新しい技術であるCLIP-Dissectを提案する。CLIP-Dissectは、マルチモーダル視覚/言語モデルの最近の進歩を活用し、ラベル付けされたデータや人間の例を必要とせずに、オープンエンドな概念で内部ニューロンをラベル付けします。CLIP-Dissectは、基底真理が利用可能な最終層ニューロンに対して既存の方法よりも正確な記述を提供し、隠れ層ニューロンに対しても定性的に良好な記述を提供することを示す。さらに、本手法は非常に柔軟で、モデルにとらわれず、新しい概念を容易に扱うことができ、将来的に優れたマルチモーダルモデルを利用するために拡張することが可能である。最後に、CLIP-Dissectは計算効率が高く、ResNet-50の5層の全ニューロンをわずか4分でラベル付けでき、これは既存の手法の10倍以上である。私たちのコードは https://github.com/Trustworthy-ML-Lab/CLIP-dissect で公開されています。最後に、本手法の有効性をさらに裏付けるために、クラウドソーシングによるユーザー調査の結果を付録Bに掲載しています。

要約(オリジナル)

In this paper, we propose CLIP-Dissect, a new technique to automatically describe the function of individual hidden neurons inside vision networks. CLIP-Dissect leverages recent advances in multimodal vision/language models to label internal neurons with open-ended concepts without the need for any labeled data or human examples. We show that CLIP-Dissect provides more accurate descriptions than existing methods for last layer neurons where the ground-truth is available as well as qualitatively good descriptions for hidden layer neurons. In addition, our method is very flexible: it is model agnostic, can easily handle new concepts and can be extended to take advantage of better multimodal models in the future. Finally CLIP-Dissect is computationally efficient and can label all neurons from five layers of ResNet-50 in just 4 minutes, which is more than 10 times faster than existing methods. Our code is available at https://github.com/Trustworthy-ML-Lab/CLIP-dissect. Finally, crowdsourced user study results are available at Appendix B to further support the effectiveness of our method.

arxiv情報

著者 Tuomas Oikarinen,Tsui-Wei Weng
発行日 2023-06-05 17:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク