要約
CLIP や LiT などのマルチモーダル画像テキスト モデルは、画像分類ベンチマークで優れたパフォーマンスを実証しており、そのゼロショット汎化能力は特に魅力的です。
これらのモデルのトップ 5 のゼロショット精度は非常に高いですが、トップ 1 の精度ははるかに低くなります (場合によっては 25% 以上の差)。
このパフォーマンス ギャップの原因を調査したところ、失敗ケースの多くはテキスト プロンプトのあいまいさによって引き起こされていることがわかりました。
まず、トップ 1 予測が間違っている可能性が高い画像を識別するための、シンプルで効率的なゼロショット ポストホック手法を開発します。
複数のプロンプトと画像変換。
私たちの手順が間違いをよりよく予測し、選択的予測タスクで一般的な最大ロジットベースラインを上回るパフォーマンスを示すことを示します。
次に、WordNet 階層を利用して、そのような不確実な画像の精度を向上させる簡単かつ効率的な方法を提案します。
具体的には、セマンティック ラベル階層からその親と子を組み込むことで元のクラスを拡張し、その拡張をテキスト プロンプトにプラグインします。
5 つの異なる ImageNet ベースのデータセットを使用して、CLIP モデルと LiT モデルの両方で実験を実施します。
CLIP の場合、私たちの方法により、トップ 1 の精度が不確実なサブセットで 17.13%、ImageNet 検証セット全体で 3.6% 向上しました。
また、ImageNet シフト データセット、他の 4 つのデータセット、および LiT などの他のモデル アーキテクチャ全体でこの方法が改善されることも示します。
提案された方法はハイパーパラメータを必要とせず、追加のモデル トレーニングを必要とせず、他の大規模なマルチモーダル アーキテクチャに簡単に拡張できます。
コードは https://github.com/gyhandy/Hierarchy-CLIP で入手できます。
要約(オリジナル)
Multi-modal image-text models such as CLIP and LiT have demonstrated impressive performance on image classification benchmarks and their zero-shot generalization ability is particularly exciting. While the top-5 zero-shot accuracies of these models are very high, the top-1 accuracies are much lower (over 25% gap in some cases). We investigate the reasons for this performance gap and find that many of the failure cases are caused by ambiguity in the text prompts. First, we develop a simple and efficient zero-shot post-hoc method to identify images whose top-1 prediction is likely to be incorrect, by measuring consistency of the predictions w.r.t. multiple prompts and image transformations. We show that our procedure better predicts mistakes, outperforming the popular max logit baseline on selective prediction tasks. Next, we propose a simple and efficient way to improve accuracy on such uncertain images by making use of the WordNet hierarchy; specifically we augment the original class by incorporating its parent and children from the semantic label hierarchy, and plug the augmentation into text prompts. We conduct experiments on both CLIP and LiT models with five different ImageNet-based datasets. For CLIP, our method improves the top-1 accuracy by 17.13% on the uncertain subset and 3.6% on the entire ImageNet validation set. We also show that our method improves across ImageNet shifted datasets, four other datasets, and other model architectures such as LiT. The proposed method is hyperparameter-free, requires no additional model training and can be easily scaled to other large multi-modal architectures. Code is available at https://github.com/gyhandy/Hierarchy-CLIP.
arxiv情報
著者 | Yunhao Ge,Jie Ren,Andrew Gallagher,Yuxiao Wang,Ming-Hsuan Yang,Hartwig Adam,Laurent Itti,Balaji Lakshminarayanan,Jiaping Zhao |
発行日 | 2023-05-25 17:14:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google