GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

要約

この研究では、大規模言語モデル (LLM) が視覚言語モデル (VLM) の暗黙的なオプティマイザーとして機能し、下流の視覚タスクを強化できる新しい方法 (GLOV) を提案します。
私たちの GLOV メタプロンプトは、下流のタスクの説明を使用して LLM に要求し、適切な VLM プロンプト (CLIP によるゼロショット分類など) をクエリします。
これらのプロンプトは、フィットネス関数を通じて取得された純度の尺度に従ってランク付けされます。
それぞれの最適化ステップでは、ランク付けされたプロンプトがコンテキスト内の例 (精度とともに) として供給され、下流の VLM が好むテキスト プロンプトのタイプの情報を LLM に提供します。
さらに、前の最適化ステップで LLM によって見つかった正および負の解からの埋め込みのオフセット差分ベクトルを次の最適化ステップのネットワークの中間層に追加することにより、各最適化ステップで LLM 生成プロセスを明示的に操作します。
生成ステップ。
このオフセット ベクトルにより、下流の VLM が優先する言語の種類に向けて LLM 生成が方向付けられ、その結果、下流のビジョン タスクのパフォーマンスが向上します。
私たちは、VLM の 2 つのファミリー、つまりデュアルエンコーダー (CLIP など) モデルとエンコーダーデコーダー (LLaVa など) モデルを使用して 16 の多様なデータセットで GLOV を包括的に評価し、発見されたソリューションが認識パフォーマンスを最大で向上できることを示しています。
これらのモデルでは 15.0% と 57.5% (平均 3.8% と 21.6%) でした。

要約(オリジナル)

In this work, we propose a novel method (GLOV) enabling Large Language Models (LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the downstream task description, querying it for suitable VLM prompts (e.g., for zero-shot classification with CLIP). These prompts are ranked according to a purity measure obtained through a fitness function. In each respective optimization step, the ranked prompts are fed as in-context examples (with their accuracies) to equip the LLM with the knowledge of the type of text prompts preferred by the downstream VLM. Furthermore, we also explicitly steer the LLM generation process in each optimization step by specifically adding an offset difference vector of the embeddings from the positive and negative solutions found by the LLM, in previous optimization steps, to the intermediate layer of the network for the next generation step. This offset vector steers the LLM generation toward the type of language preferred by the downstream VLM, resulting in enhanced performance on the downstream vision tasks. We comprehensively evaluate our GLOV on 16 diverse datasets using two families of VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models — showing that the discovered solutions can enhance the recognition performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these models.

arxiv情報

著者 M. Jehanzeb Mirza,Mengjie Zhao,Zhuoyuan Mao,Sivan Doveh,Wei Lin,Paul Gavrikov,Michael Dorkenwald,Shiqi Yang,Saurav Jha,Hiromi Wakaki,Yuki Mitsufuji,Horst Possegger,Rogerio Feris,Leonid Karlinsky,James Glass
発行日 2024-12-02 14:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク