Language Models as Black-Box Optimizers for Vision-Language Models

要約

Web スケールのデータセットで事前トレーニングされたビジョン言語モデル (VLM) は、最小限のデータで微調整すると、下流のタスクで優れた機能を実証しました。
ただし、多くの VLM は独自のデータに依存しており、オープンソースではないため、微調整のためのホワイトボックス アプローチの使用は制限されています。
そのため、私たちは、自然言語プロンプトを通じて VLM を最適化するブラックボックス アプローチを開発し、それによってモデル パラメーター、機能の埋め込み、さらには出力ロジットにアクセスする必要性を回避することを目指しています。
VLM に最適なテキスト プロンプトを検索するには、チャット ベースの LLM を採用することを提案します。
具体的には、現在のプロンプトのパフォーマンスを評価し、LLM にテキストのフィードバックに基づいてプロンプトを改良するよう依頼することで、効果的なプロンプトに収束する自動山登り手順を採用しています。これはすべて、人間が介在することなく会話プロセス内で行われます。
困難なワンショット画像分類セットアップにおいて、私たちのシンプルなアプローチは、ImageNet を含む 11 のデータセット全体でホワイトボックス連続プロンプト法 (CoOp) を平均 1.5% 上回りました。
また、私たちのアプローチは、人間が操作したプロンプトと LLM が生成したプロンプトの両方を上回ります。
我々は、肯定的なプロンプトと否定的なプロンプトの両方を組み込んだ会話型フィードバックの利点を強調し、LLM がより効率的な検索のためにテキストフィードバックの暗黙的な勾配方向を利用できることを示唆しています。
さらに、私たちの戦略によって生成されたテキスト プロンプトは、より解釈しやすいだけでなく、ブラック ボックス方式でさまざまな VLM アーキテクチャ間で適切に転送できることもわかりました。
最後に、フレームワークを適用して、テキストから画像への生成、プロンプト反転、およびパーソナライゼーションのために最先端のブラックボックス VLM (DALL-E 3) を最適化します。

要約(オリジナル)

Vision-language models (VLMs) pre-trained on web-scale datasets have demonstrated remarkable capabilities on downstream tasks when fine-tuned with minimal data. However, many VLMs rely on proprietary data and are not open-source, which restricts the use of white-box approaches for fine-tuning. As such, we aim to develop a black-box approach to optimize VLMs through natural language prompts, thereby avoiding the need to access model parameters, feature embeddings, or even output logits. We propose employing chat-based LLMs to search for the best text prompt for VLMs. Specifically, we adopt an automatic hill-climbing procedure that converges to an effective prompt by evaluating the performance of current prompts and asking LLMs to refine them based on textual feedback, all within a conversational process without human-in-the-loop. In a challenging 1-shot image classification setup, our simple approach surpasses the white-box continuous prompting method (CoOp) by an average of 1.5% across 11 datasets including ImageNet. Our approach also outperforms both human-engineered and LLM-generated prompts. We highlight the advantage of conversational feedback that incorporates both positive and negative prompts, suggesting that LLMs can utilize the implicit gradient direction in textual feedback for a more efficient search. In addition, we find that the text prompts generated through our strategy are not only more interpretable but also transfer well across different VLM architectures in a black-box manner. Lastly, we apply our framework to optimize the state-of-the-art black-box VLM (DALL-E 3) for text-to-image generation, prompt inversion, and personalization.

arxiv情報

著者 Shihong Liu,Zhiqiu Lin,Samuel Yu,Ryan Lee,Tiffany Ling,Deepak Pathak,Deva Ramanan
発行日 2024-05-14 03:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM パーマリンク