A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models

要約

プロンプト エンジニアリングは、プロンプトと呼ばれるタスク固有のヒントを使用して大規模な事前トレーニング済みモデルを拡張し、モデルを新しいタスクに適応させる手法です。
プロンプトは、自然言語命令として手動で作成することも、自然言語命令またはベクトル表現として自動的に生成することもできます。
プロンプト エンジニアリングにより、モデル パラメーターを更新せずにプロンプ​​トのみに基づいて予測を実行できるようになり、事前トレーニングされた大規模なモデルを現実世界のタスクに簡単に適用できるようになります。
ここ数年、プロンプト エンジニアリングは自然言語処理に関してよく研究されてきました。
最近では、視覚言語モデリングでも集中的に研究されています。
しかし、現時点では、事前トレーニングされた視覚言語モデルに対するプロンプトエンジニアリングの体系的な概要が不足しています。
この論文は、マルチモーダルからテキストへの生成モデル (Flamingo など)、画像からテキストのマッチング モデル (CLIP など)、およびテキストから画像への生成モデル (安定拡散など) の 3 種類の視覚言語モデルに関するプロンプト エンジニアリングにおける最先端の研究の包括的な調査を提供することを目的としています。
モデルの種類ごとに、モデルの簡単な概要、プロンプト方法、プロンプトベースのアプリケーション、および対応する責任と整合性の問題が要約され、説明されています。
さらに、視覚言語モデル、言語モデル、視覚モデルに基づくプロンプトの共通点と相違点についても説明します。
このテーマに関する今後の研究を促進するために、課題、将来の方向性、研究の機会がまとめられています。

要約(オリジナル)

Prompt engineering is a technique that involves augmenting a large pre-trained model with task-specific hints, known as prompts, to adapt the model to new tasks. Prompts can be created manually as natural language instructions or generated automatically as either natural language instructions or vector representations. Prompt engineering enables the ability to perform predictions based solely on prompts without updating model parameters, and the easier application of large pre-trained models in real-world tasks. In past years, Prompt engineering has been well-studied in natural language processing. Recently, it has also been intensively studied in vision-language modeling. However, there is currently a lack of a systematic overview of prompt engineering on pre-trained vision-language models. This paper aims to provide a comprehensive survey of cutting-edge research in prompt engineering on three types of vision-language models: multimodal-to-text generation models (e.g. Flamingo), image-text matching models (e.g. CLIP), and text-to-image generation models (e.g. Stable Diffusion). For each type of model, a brief model summary, prompting methods, prompting-based applications, and the corresponding responsibility and integrity issues are summarized and discussed. Furthermore, the commonalities and differences between prompting on vision-language models, language models, and vision models are also discussed. The challenges, future directions, and research opportunities are summarized to foster future research on this topic.

arxiv情報

著者 Jindong Gu,Zhen Han,Shuo Chen,Ahmad Beirami,Bailan He,Gengyuan Zhang,Ruotong Liao,Yao Qin,Volker Tresp,Philip Torr
発行日 2023-07-24 17:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク