CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks

要約

タイトル:CLIP手術:オープンボキャブラリータスク向けの改善による説明可能性の向上

要約:

– Contrastive Language-Image Pre-training(CLIP)は、ゼロショット学習やテキストに基づくビジョンタスクを含む多くのダウンストリームタスクにおいて、重要な利点を示した強力なマルチモーダル大規模ビジョンモデルです。
– しかし、我々は、モデルの説明可能性に関するいくつかの深刻な問題があることに気付きました。これにより、その信頼性が損なわれ、関連するタスクが妨げられます。
– 具体的には、予測された類似性マップによると、CLIPは背景領域よりも前景領域を好む傾向があり、これは人間の理解と矛盾しています。さらに、関係のない位置で可視化結果に明らかなノイズがあります。
– これらの2つの問題を解決するために、我々は深く分析を行い、新しい発見と証拠を提示しました。これらの洞察に基づいて、推論アーキテクチャと特徴の手術のような変更を可能にするメソッドであるCLIP Surgeryを提案しています。
– 提案された方法は、畳み込みネットワークとビジョントランスフォーマにおいて、CLIPの説明可能性を大幅に改善し、既存の方法を大きく上回っています。さらに、オープンボキャブラリーセグメンテーションやマルチラベル認識タスクにおいても、著しい改善を示しています。
– また、片面何でも分類(Segment Anything Model:SAM)のような多様なタスクにも有用です。コードはhttps://github.com/xmed-lab/CLIP_Surgeryで入手可能です。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) is a powerful multimodal large vision model that has demonstrated significant benefits for downstream tasks, including many zero-shot learning and text-guided vision tasks. However, we notice some severe problems regarding the model’s explainability, which undermines its credibility and impedes related tasks. Specifically, we find CLIP prefers the background regions than the foregrounds according to the predicted similarity map, which contradicts human understanding. Besides, there are obvious noisy activations on the visualization results at irrelevant positions. To address these two issues, we conduct in-depth analyses and reveal the reasons with new findings and evidences. Based on these insights, we propose the CLIP Surgery, a method that enables surgery-like modifications for the inference architecture and features, for better explainability and enhancement in multiple open-vocabulary tasks. The proposed method has significantly improved the explainability of CLIP for both convolutional networks and vision transformers, surpassing existing methods by large margins. Besides, our approach also demonstrates remarkable improvements in open-vocabulary segmentation and multi-label recognition tasks. For examples, the mAP improvement on NUS-Wide multi-label recognition is 4.41% without any additional training, and our CLIP Surgery surpasses the state-of-the-art method by 8.74% at mIoU on Cityscapes open-vocabulary semantic segmentation. Furthermore, our method benefits other tasks including multimodal visualization and interactive segmentation like Segment Anything Model (SAM). The code is available at https://github.com/xmed-lab/CLIP_Surgery

arxiv情報

著者 Yi Li,Hualiang Wang,Yiqun Duan,Xiaomeng Li
発行日 2023-04-12 07:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク