Prefix Conditioning Unifies Language and Label Supervision

要約

視覚言語の対照学習は、大量の画像キャプションペアデータを活用することにより、新しい学習パラダイムを提案します。
キャプションの監視は、強力なゼロショット画像認識パフォーマンスを可能にする語彙の広いカバレッジを提供することに優れています。
一方、ラベル監視は、ラベル指向であり、まれなカテゴリをカバーできる、よりターゲットを絞った視覚的表現を学習することを提供します。
対照的な画像キャプションの事前トレーニングに対する両方の種類の監視の補完的な利点を得るために、最近の研究では、クラスラベルをプロンプトと呼ばれる事前定義されたテンプレートを使用して文に変換することが提案されています。
ただし、実際のキャプションとプロンプトセンテンスを単純に統合すると、言語エンコーダーでテキストの分布シフトが適切に処理されない可能性があるため、学習が複雑になる可能性があります。
この作業では、トレーニング時に入力文のタイプ(キャプションやプロンプトなど)を言語エンコーダーに通知するプレフィックストークンを使用して、これら2つのタイプの監視を統合するためのシンプルで効果的なアプローチを提案します。
私たちの方法は一般的であり、CLIPやUniCLなどの既存のVL事前トレーニング目標に簡単に統合できます。
実験では、この単純な手法により、事前にトレーニングされたモデルのゼロショット画像認識精度のパフォーマンスが劇的に向上することを示しています。

要約(オリジナル)

Vision-language contrastive learning suggests a new learning paradigm by leveraging a large amount of image-caption-pair data. The caption supervision excels at providing wide coverage in vocabulary that enables strong zero-shot image recognition performance. On the other hand, label supervision offers to learn more targeted visual representations that are label-oriented and can cover rare categories. To gain the complementary advantages of both kinds of supervision for contrastive image-caption pre-training, recent works have proposed to convert class labels into a sentence with pre-defined templates called prompts. However, a naive unification of the real caption and the prompt sentences could lead to a complication in learning, as the distribution shift in text may not be handled properly in the language encoder. In this work, we propose a simple yet effective approach to unify these two types of supervision using prefix tokens that inform a language encoder of the type of the input sentence (e.g., caption or prompt) at training time. Our method is generic and can be easily integrated into existing VL pre-training objectives such as CLIP or UniCL. In experiments, we show that this simple technique dramatically improves the performance in zero-shot image recognition accuracy of the pre-trained model.

arxiv情報

著者 Kuniaki Saito,Kihyuk Sohn,Xiang Zhang,Chun-Liang Li,Chen-Yu Lee,Kate Saenko,Tomas Pfister
発行日 2022-06-02 16:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク