CLIP-Dissect: Automatic Description of Neuron Representations in Deep Vision Networks

要約

本論文では、ビジョンネットワーク内の個々の隠れニューロンの機能を自動的に記述する新しい技術であるCLIP-Dissectを提案します。
CLIP-Dissectは、マルチモーダルビジョン/言語モデルの最近の進歩を活用して、既存のツールを成功させるために必要なラベル付きデータや人間の例を必要とせずに、オープンエンドの概念で内部ニューロンにラベルを付けます。
CLIP-Dissectは、グラウンドトゥルースが利用可能な最終層ニューロンの既存の方法よりも正確な説明と、隠れ層ニューロンの質的に優れた説明を提供することを示します。
さらに、私たちの方法は非常に柔軟性があります。モデルにとらわれず、新しい概念を簡単に処理でき、将来、より優れたマルチモーダルモデルを利用するように拡張できます。
最後に、CLIP-Dissectは計算効率が高く、ResNet-50の5つの層からのすべてのニューロンにわずか4分でラベルを付けることができます。

要約(オリジナル)

In this paper, we propose CLIP-Dissect, a new technique to automatically describe the function of individual hidden neurons inside vision networks. CLIP-Dissect leverages recent advances in multimodal vision/language models to label internal neurons with open-ended concepts without the need for any labeled data or human examples, which are required for existing tools to succeed. We show that CLIP-Dissect provides more accurate descriptions than existing methods for last layer neurons where the ground-truth is available as well as qualitatively good descriptions for hidden layer neurons. In addition, our method is very flexible: it is model agnostic, can easily handle new concepts and can be extended to take advantage of better multimodal models in the future. Finally CLIP-Dissect is computationally efficient and can label all neurons from five layers of ResNet-50 in just four minutes.

arxiv情報

著者 Tuomas Oikarinen,Tsui-Wei Weng
発行日 2022-07-07 16:10:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク