A Closer Look at the Robustness of Contrastive Language-Image Pre-Training (CLIP)

要約

Contrastive Language-Image Pre-training (CLIP) モデルは、複数の困難な分布シフトにわたって顕著な一般化機能を実証しています。
ただし、特定の視覚的要因の変動に対する堅牢性に関しては、まだ研究すべきことが多くあります。
実際のアプリケーションでは、信頼性が高く安全なシステムでは、予測の不確実性など、分類精度を超えた他の安全目標を考慮する必要があります。
しかし、このような安全関連機能に対する CLIP モデルの有効性はあまり調査されていません。
上記に基づいて、この研究は CLIP モデルの安全目標を包括的に調査し、特に 3 つの主要な特性、つまり視覚的要因の変動に対する回復力、校正された不確実性の推定、および異常な入力を検出する能力に焦点を当てます。
この目的を達成するために、83 個の CLIP モデルと 127 個の ImageNet 分類器を研究しました。
アーキテクチャ、(事前)トレーニングの配布、およびトレーニング戦略は多様です。
10 の視覚的要素 (形状やパターンなど)、5 種類の分布外データ、およびテクスチャ、スタイル、摂動シフトなどのさまざまなシフト タイプを使用した 8 つの自然かつ困難なテスト条件を考慮します。
私たちの研究により、CLIP モデルに関するこれまで知られていなかったいくつかの洞察が明らかになりました。
たとえば、他の ImageNet モデルよりも一貫してよりキャリブレーションされているわけではなく、これは既存の調査結果と矛盾します。
さらに、私たちの分析は、3 つの安全関連特性に対するトレーニング ソース設計の重大な影響を示すことにより、トレーニング ソース設計の重要性を強調しています。
私たちの包括的な研究は、より堅牢で信頼性の高い CLIP モデルの開発に光を当て、その開発を導くのに役立つと信じています。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) models have demonstrated remarkable generalization capabilities across multiple challenging distribution shifts. However, there is still much to be explored in terms of their robustness to the variations of specific visual factors. In real-world applications, reliable and safe systems must consider other safety objectives beyond classification accuracy, such as predictive uncertainty. Yet, the effectiveness of CLIP models on such safety-related features is less-explored. Driven by the above, this work comprehensively investigates the safety objectives of CLIP models, specifically focusing on three key properties: resilience to visual factor variations, calibrated uncertainty estimations, and the ability to detect anomalous inputs. To this end, we study 83 CLIP models and 127 ImageNet classifiers. They are diverse in architecture, (pre)training distribution and training strategies. We consider 10 visual factors (e.g., shape and pattern), 5 types of out-of-distribution data, and 8 natural and challenging test conditions with different shift types, such as texture, style, and perturbation shifts. Our study has unveiled several previously unknown insights into CLIP models. For instance, they are not consistently more calibrated than other ImageNet models, which contradicts existing findings. Additionally, our analysis underscores the significance of training source design by showcasing its profound influence on the three safety-related properties. We believe our comprehensive study can shed light on and help guide the development of more robust and reliable CLIP models.

arxiv情報

著者 Weijie Tu,Weijian Deng,Tom Gedeon
発行日 2024-02-12 05:05:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク