要約
本論文では、ビジョンネットワーク内の個々の隠れニューロンの機能を自動的に記述する新しい技術であるCLIP-Dissectを提案します。
CLIP-Dissectは、マルチモーダルビジョン/言語モデルの最近の進歩を活用して、既存のツールを成功させるために必要なラベル付きデータや人間の例を必要とせずに、オープンエンドの概念で内部ニューロンにラベルを付けます。
CLIP-Dissectは、グラウンドトゥルースが利用可能な最終層ニューロンの既存の方法よりも正確な説明と、隠れ層ニューロンの質的に優れた説明を提供することを示します。
さらに、私たちの方法は非常に柔軟性があります。モデルにとらわれず、新しい概念を簡単に処理でき、将来、より優れたマルチモーダルモデルを利用するように拡張できます。
最後に、CLIP-Dissectは計算効率が高く、ResNet-50の5つの層からのすべてのニューロンにわずか4分でラベルを付けることができます。
要約(オリジナル)
In this paper, we propose CLIP-Dissect, a new technique to automatically describe the function of individual hidden neurons inside vision networks. CLIP-Dissect leverages recent advances in multimodal vision/language models to label internal neurons with open-ended concepts without the need for any labeled data or human examples, which are required for existing tools to succeed. We show that CLIP-Dissect provides more accurate descriptions than existing methods for last layer neurons where the ground-truth is available as well as qualitatively good descriptions for hidden layer neurons. In addition, our method is very flexible: it is model agnostic, can easily handle new concepts and can be extended to take advantage of better multimodal models in the future. Finally CLIP-Dissect is computationally efficient and can label all neurons from five layers of ResNet-50 in just four minutes.
arxiv情報
著者 | Tuomas Oikarinen,Tsui-Wei Weng |
発行日 | 2022-07-07 16:10:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google