Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs

要約

大規模言語モデル (LLM) で生成されたカテゴリ固有のプロンプトのプロンプト アンサンブルは、視覚言語モデル (VLM) のゼロショット認識能力を強化する効果的な方法として浮上しました。
これらのカテゴリ固有のプロンプトを取得するために、現在の方法は、下流タスク用の VLM プロンプトを生成するために、LLM へのプロンプトを手作りすることに依存しています。
ただし、これにはこれらのタスク固有のプロンプトを手動で作成する必要があり、それでも、関心のあるカテゴリに関連付けられたさまざまな視覚概念やタスク固有のスタイルをカバーしていない可能性があります。
人間を効果的にループから解放し、ゼロショット認識のプロンプト生成プロセスを完全に自動化するために、視覚認識のためのメタプロンプト (MPVR) を提案します。
MPVR は、ターゲット タスクに関する最小限の情報 (短い自然言語記述の形式) と、関連するクラス ラベルのリストのみを入力として受け取り、カテゴリ固有の多様なプロンプトのセットを自動的に生成し、その結果、強力なゼロショット分類子が得られます。
MPVR は、複数の LLM および VLM でテストした場合、広く異なるドメインに属するさまざまな一般的なゼロショット画像認識ベンチマークを効果的に一般化します。
たとえば、MPVR は、GPT と Mixtral LLM を活用して、CLIP と比べてゼロショット認識がそれぞれ最大 19.8% と 18.2% (20 データセットの平均で 5.0% と 4.5%) 向上しました。

要約(オリジナル)

Prompt ensembling of Large Language Model (LLM) generated category-specific prompts has emerged as an effective method to enhance zero-shot recognition ability of Vision-Language Models (VLMs). To obtain these category-specific prompts, the present methods rely on hand-crafting the prompts to the LLMs for generating VLM prompts for the downstream tasks. However, this requires manually composing these task-specific prompts and still, they might not cover the diverse set of visual concepts and task-specific styles associated with the categories of interest. To effectively take humans out of the loop and completely automate the prompt generation process for zero-shot recognition, we propose Meta-Prompting for Visual Recognition (MPVR). Taking as input only minimal information about the target task, in the form of its short natural language description, and a list of associated class labels, MPVR automatically produces a diverse set of category-specific prompts resulting in a strong zero-shot classifier. MPVR generalizes effectively across various popular zero-shot image recognition benchmarks belonging to widely different domains when tested with multiple LLMs and VLMs. For example, MPVR obtains a zero-shot recognition improvement over CLIP by up to 19.8% and 18.2% (5.0% and 4.5% on average over 20 datasets) leveraging GPT and Mixtral LLMs, respectively

arxiv情報

著者 M. Jehanzeb Mirza,Leonid Karlinsky,Wei Lin,Sivan Doveh,Jakub Micorek,Mateusz Kozinski,Hilde Kuhene,Horst Possegger
発行日 2024-03-18 13:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク