Generating Image-Specific Text Improves Fine-grained Image Classification

要約

最近の視覚言語モデルは、多くの画像分類タスクにおいて視覚のみのモデルよりも優れた性能を発揮します。
ただし、テキストと画像のペアの説明がないため、これらのモデルを微調整してきめの細かい画像分類を行うことは依然として困難です。
この研究では、画像のみのデータセットから画像固有のきめの細かいテキスト記述を生成する手法 GIST を提案し、これらのテキスト記述を使用して分類を改善できることを示します。
私たちの方法の重要な部分には、1. ドメイン固有のプロンプトを備えた事前トレーニング済みの大規模言語モデルをプロンプトして、クラスごとにさまざまなきめの細かいテキスト説明を生成することと、2. 事前トレーニング済みの視覚言語モデルを使用して、各画像を画像内の関連する視覚的特徴をキャプチャするラベルを保持したテキスト説明に照合することが含まれます。
画像と生成されたテキストのペアで視覚言語モデルを微調整し、分類を改善するために調整された視覚言語表現空間を学習することで、GIST の有用性を実証します。
それぞれが異なるドメインからの 4 つの多様なきめの細かい分類データセットにわたって、フルショット シナリオと少数ショット シナリオで学習された表現空間を評価します。
私たちの手法は、CLIP リニア プローブと比較して平均 $4.1\%$ の精度の向上を達成し、フルショット データセットに対する以前の最先端の画像テキスト分類手法と比較して平均 $1.1\%$ の精度の向上を達成しました。
私たちの方法は、数ショットのレジーム全体で同様の改善を達成します。
コードは https://github.com/emu1729/GIST で入手できます。

要約(オリジナル)

Recent vision-language models outperform vision-only models on many image classification tasks. However, because of the absence of paired text/image descriptions, it remains difficult to fine-tune these models for fine-grained image classification. In this work, we propose a method, GIST, for generating image-specific fine-grained text descriptions from image-only datasets, and show that these text descriptions can be used to improve classification. Key parts of our method include 1. prompting a pretrained large language model with domain-specific prompts to generate diverse fine-grained text descriptions for each class and 2. using a pretrained vision-language model to match each image to label-preserving text descriptions that capture relevant visual features in the image. We demonstrate the utility of GIST by fine-tuning vision-language models on the image-and-generated-text pairs to learn an aligned vision-language representation space for improved classification. We evaluate our learned representation space in full-shot and few-shot scenarios across four diverse fine-grained classification datasets, each from a different domain. Our method achieves an average improvement of $4.1\%$ in accuracy over CLIP linear probes and an average of $1.1\%$ improvement in accuracy over the previous state-of-the-art image-text classification method on the full-shot datasets. Our method achieves similar improvements across few-shot regimes. Code is available at https://github.com/emu1729/GIST.

arxiv情報

著者 Emily Mu,Kathleen M. Lewis,Adrian V. Dalca,John Guttag
発行日 2023-07-21 02:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク