PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting

要約

ビジョン言語 (VL) 事前トレーニング (VLP) は、特にクロスモーダル検索の場合、広範囲の VL 下流タスクにわたって VL モデルを適切に一般化することが示されています。
ただし、それは膨大な量の画像とテキストのペアに依存するため、退屈でコストのかかるキュレーションが必要になります。
反対に、弱教師あり VLP (W-VLP) は、事前にトレーニングされたオブジェクト検出器 (OD) によって画像から生成されたオブジェクト タグを使用して手段を探索します。
それでも、OD をトレーニングするための監視として、ペアの情報、つまり画像とオブジェクトレベルの注釈が必要です。
監視の量をさらに削減するために、画像を記述するために大規模言語モデル (LLM) からの知識を促すプロンプトインザループ (PiTL) を提案します。
具体的には、画像のカテゴリラベルが与えられたとします。
製油所、知識、例:
製油所には大きな貯蔵タンク、配管などがあり、LLM によって抽出され、対応する言語として使用されます。
知識の補足。
シーンに現れる可能性が最も高いエンティティ間の共通の関係。
PiTL を使用して、ImageNet21K からの 900 万枚の画像と 14K カテゴリの 100 万個の説明からなる新しい VL データセットである IN14K を作成します。
経験的に、PiTL で生成されたペアで事前トレーニングされた VL モデルは、監視が少なく、画像からテキストへ (I2T) およびテキストから画像へ (T2I) の検索タスクにおいて他の W-VLP 作業よりも強く好まれます。
結果は、VLP に対する PiTL で生成されたペアの有効性を明らかにしました。

要約(オリジナル)

Vision-language (VL) Pre-training (VLP) has shown to well generalize VL models over a wide range of VL downstream tasks, especially for cross-modal retrieval. However, it hinges on a huge amount of image-text pairs, which requires tedious and costly curation. On the contrary, weakly-supervised VLP (W-VLP) explores means with object tags generated by a pre-trained object detector (OD) from images. Yet, they still require paired information, i.e. images and object-level annotations, as supervision to train an OD. To further reduce the amount of supervision, we propose Prompts-in-The-Loop (PiTL) that prompts knowledge from large language models (LLMs) to describe images. Concretely, given a category label of an image, e.g. refinery, the knowledge, e.g. a refinery could be seen with large storage tanks, pipework, and …, extracted by LLMs is used as the language counterpart. The knowledge supplements, e.g. the common relations among entities most likely appearing in a scene. We create IN14K, a new VL dataset of 9M images and 1M descriptions of 14K categories from ImageNet21K with PiTL. Empirically, the VL models pre-trained with PiTL-generated pairs are strongly favored over other W-VLP works on image-to-text (I2T) and text-to-image (T2I) retrieval tasks, with less supervision. The results reveal the effectiveness of PiTL-generated pairs for VLP.

arxiv情報

著者 Zixin Guo,Tzu-Jui Julius Wang,Selen Pehlivan,Abduljalil Radman,Jorma Laaksonen
発行日 2023-07-14 13:43:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR パーマリンク