要約
このホワイト ペーパーでは、対照的な言語イメージの事前トレーニング済み (CLIP) モデルに対する新しい正則化スキームの効果を調べます。
私たちのアプローチは、多くのドメインでは、テキストトークンは少数の画像領域のみを記述し、同様に各画像領域は少数のテキストトークンのみに対応する必要があるという観察に基づいています。
CLIP スタイルのモデルでは、これは、テキスト トークンの埋め込みが、特定の画像とテキストのペアの少数の画像パッチの埋め込みと高い類似性を持つ必要があることを意味します。
テキストトークンのエントロピーを画像パッチの類似性スコアにペナルティを課す新しい正則化スキームを使用して、この観察結果を形式化します。
提案された正則化スキームがテキストトークンと画像パッチの類似性スコアをゼロに向かって縮小し、望ましい効果を達成することを定性的および定量的に示します。
この根本的な仮説が自然に発生する重要な医学的状況で、私たちのアプローチの有望性を示します。
提案されたアプローチを使用して、CheXpert 胸部 X 線データセットからのすべてのタスクで最先端の (SOTA) ゼロ ショット パフォーマンスを達成し、モデルの非正則化バージョンおよび最近公開されたいくつかの自己教師ありモデルよりも優れています。
要約(オリジナル)
In this paper, we study the effect of a novel regularization scheme on contrastive language-image pre-trained (CLIP) models. Our approach is based on the observation that, in many domains, text tokens should only describe a small number of image regions and, likewise, each image region should correspond to only a few text tokens. In CLIP-style models, this implies that text-token embeddings should have high similarity to only a small number of image-patch embeddings for a given image-text pair. We formalize this observation using a novel regularization scheme that penalizes the entropy of the text-token to image-patch similarity scores. We qualitatively and quantitatively demonstrate that the proposed regularization scheme shrinks the text-token and image-patch similarity scores towards zero, thus achieving the desired effect. We demonstrate the promise of our approach in an important medical context where this underlying hypothesis naturally arises. Using our proposed approach, we achieve state of the art (SOTA) zero-shot performance on all tasks from the CheXpert chest x-ray dataset, outperforming an unregularized version of the model and several recently published self-supervised models.
arxiv情報
著者 | Anil Palepu,Andrew L. Beam |
発行日 | 2022-12-13 16:29:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google