Intriguing Differences Between Zero-Shot and Systematic Evaluations of Vision-Language Transformer Models

要約

Transformer ベースのモデルは、ベンチマーク データセットでの優れた (ゼロショット) パフォーマンスにより、ここ数年、自然言語処理やその他の分野で主流を占めてきました。
ただし、これらのモデルは、その複雑さとサイズのため、ほとんど理解されていません。
特定のプロパティを理解するためにプローブベースの手法が広く使用されていますが、表現空間の構造は体系的に特徴付けられていません。
したがって、そのようなモデルがデータセットを超えた新しい入力に対してどのように一般化し、過剰一般化するのかは不明です。
この論文では、新しい勾配降下法最適化手法に基づいて、一般的に使用される視覚言語モデルの埋め込み空間を探索することができます。
Imagenette データセットを使用すると、モデルは 99% 以上のゼロショット分類パフォーマンスを達成しているものの、体系的な評価には完全に失敗していることがわかります。
線形近似を使用して、顕著な違いを説明するフレームワークを提供します。
また、私たちの結果が連続入力を持つ他の変圧器モデルにも適用できることを裏付けるために、別のモデルを使用しても同様の結果が得られました。
また、変更された画像を検出するための堅牢な方法も提案します。

要約(オリジナル)

Transformer-based models have dominated natural language processing and other areas in the last few years due to their superior (zero-shot) performance on benchmark datasets. However, these models are poorly understood due to their complexity and size. While probing-based methods are widely used to understand specific properties, the structures of the representation space are not systematically characterized; consequently, it is unclear how such models generalize and overgeneralize to new inputs beyond datasets. In this paper, based on a new gradient descent optimization method, we are able to explore the embedding space of a commonly used vision-language model. Using the Imagenette dataset, we show that while the model achieves over 99\% zero-shot classification performance, it fails systematic evaluations completely. Using a linear approximation, we provide a framework to explain the striking differences. We have also obtained similar results using a different model to support that our results are applicable to other transformer models with continuous inputs. We also propose a robust way to detect the modified images.

arxiv情報

著者 Shaeke Salman,Md Montasir Bin Shams,Xiuwen Liu,Lingjiong Zhu
発行日 2024-02-13 14:07:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク