GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks?

要約

最近の事前トレーニング済みの大規模モデル (GPT-4 など) の急増は、深層学習コミュニティ全体に広がりました。
このような強力なラージ言語モデル (LLM) は、高度な生成能力とマルチモーダルな理解能力を実証し、さまざまなベンチマークで新しい最先端のパフォーマンスを迅速に達成します。
事前トレーニングされた LLM は通常、文脈推論、記事分析、画像コンテンツの理解などのさまざまなタスクを実行できる汎用 AI モデルとしての役割を果たします。
ただし、このような大規模なモデルの実装に必要なメモリと計算コストが法外に高いことを考慮すると、多くの視覚認識タスクには従来のモデル (CNN や ViT など) が依然として不可欠です。
この論文では、事前に訓練された大規模なモデルを利用することで、知覚タスク (画像分類など) のための通常の視覚モデルの表現能力を強化することを提案します。
私たちは、事前トレーニングされた大規模なモデルから抽出された知識を利用して、CNN や ViT などのモデルが強化された表現を学習し、より優れたパフォーマンスを達成できるようにする、新しい学習パラダイムを提案します。
まず、マルチモーダル LLM にすべてのトレーニング画像の説明テキストを生成させることで、高品質の説明セットを厳選します。
さらに、これらの詳細な説明を事前トレーニングされたエンコーダーにフィードして、画像のコンテンツをエンコードする豊富なセマンティック情報を含むテキスト埋め込みを抽出します。
トレーニング中、テキストの埋め込みは追加の監視信号として機能し、視覚モデルによって学習された画像表現と調整されます。
アライメント プロセスは、事前トレーニングされた LLM の支援により、ビジョン モデルの学習を改善し、より高い精度を達成するのに役立ちます。
私たちは広範な実験を行って、提案されたアルゴリズムが異種アーキテクチャのさまざまなビジョンモデルのパフォーマンスを一貫して向上させることを検証します。

要約(オリジナル)

The recent upsurge in pre-trained large models (e.g. GPT-4) has swept across the entire deep learning community. Such powerful large language models (LLMs) demonstrate advanced generative ability and multimodal understanding capability, which quickly achieve new state-of-the-art performances on a variety of benchmarks. The pre-trained LLM usually plays the role as a universal AI model that can conduct various tasks, including context reasoning, article analysis and image content comprehension. However, considering the prohibitively high memory and computational cost for implementing such a large model, the conventional models (such as CNN and ViT), are still essential for many visual perception tasks. In this paper, we propose to enhance the representation ability of ordinary vision models for perception tasks (e.g. image classification) by taking advantage of large pre-trained models. We present a new learning paradigm in which the knowledge extracted from large pre-trained models are utilized to help models like CNN and ViT learn enhanced representations and achieve better performance. Firstly, we curate a high quality description set by prompting a multimodal LLM to generate descriptive text for all training images. Furthermore, we feed these detailed descriptions into a pre-trained encoder to extract text embeddings with rich semantic information that encodes the content of images. During training, text embeddings will serve as extra supervising signals and be aligned with image representations learned by vision models. The alignment process helps vision models learn better and achieve higher accuracy with the assistance of pre-trained LLMs. We conduct extensive experiments to verify that the proposed algorithm consistently improves the performance for various vision models with heterogeneous architectures.

arxiv情報

著者 Ning Ding,Yehui Tang,Zhongqian Fu,Chao Xu,Kai Han,Yunhe Wang
発行日 2023-06-07 13:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク