Self-Supervised Open-Ended Classification with Small Visual Language Models

要約

我々は、小規模な視覚言語モデルを使用したオープンエンド分類のための少数ショット能力を解放する自己教師ありアプローチである自己コンテキスト適応(SeCAt)を紹介します。
私たちのアプローチは、大規模な画像プールをクラスタリングし、続いて意味的に無関係な名前をクラスタに割り当てることに基づいて、自己監視型の方法で画像キャプションを模倣します。
そうすることで、画像と疑似キャプションのペアのインターリーブされたシーケンスとクエリ画像から構成されるトレーニング信号を構築します。これを「セルフコンテキスト」シーケンスと呼びます。
この信号に基づいて、モデルは適切な擬似キャプションを生成するようにトレーニングされます。
さまざまな粒度にわたる、いくつかのマルチモーダルな少数ショット データセットに対する SeCAt のパフォーマンスと柔軟性を実証します。
約 10 億のパラメータを持つモデルを使用することで、Frozen や FROMAGE などのはるかに大きなモデルの数ショット能力を上回ります。
SeCAt は、大規模なモデルまたは独自のモデルへのアクセスを必要とする、オープンエンドの少数ショット学習における研究と応用に新たな可能性をもたらします。

要約(オリジナル)

We present Self-Context Adaptation (SeCAt), a self-supervised approach that unlocks few-shot abilities for open-ended classification with small visual language models. Our approach imitates image captions in a self-supervised way based on clustering a large pool of images followed by assigning semantically-unrelated names to clusters. By doing so, we construct a training signal consisting of interleaved sequences of image and pseudocaption pairs and a query image, which we denote as the ‘self-context’ sequence. Based on this signal the model is trained to produce the right pseudo-caption. We demonstrate the performance and flexibility of SeCAt on several multimodal few-shot datasets, spanning various granularities. By using models with approximately 1B parameters we outperform the few-shot abilities of much larger models, such as Frozen and FROMAGe. SeCAt opens new possibilities for research and applications in open-ended few-shot learning that otherwise requires access to large or proprietary models.

arxiv情報

著者 Mohammad Mahdi Derakhshani,Ivona Najdenkoska,Cees G. M. Snoek,Marcel Worring,Yuki M. Asano
発行日 2023-12-06 13:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク