Transfer Visual Prompt Generator across LLMs

要約

タイトル:異なるLLM間でのビジュアルプロンプトジェネレータの転送

要約:新しいビジョン・ランゲージLLM(VL-LLM)を開発するには、大量の画像とテキストのペアをスクラッチから事前学習することが非常にリソースを消費するため、既存のLLMと比較的軽量のビジュアルプロンプトジェネレータ(VPG)を接続することが可能なパラダイムとなる。しかし、VL-LLMのVPG部分をさらに微調整することは、必要な計算コスト(数千のGPU時間と数百万のトレーニングデータ)が不可欠である。その代替案の1つは、ターゲットVL-LLMに任意の既存のVL-LLMsから既存のVPGを転送することである。この研究では、初めて異なるLLM間でのVPG転送性を調査し、VPG転送のコストを削減する解決策を探索する。私たちは、異なるLLMサイズ(例:小型から大型)および異なるLLMタイプ間でのVPG転送を調査し、転送効率を最大化するための主要な要因を診断する。観察に基づいて、私たちは、VPGTransと呼ばれる2つの段階の転送フレームワークを設計しました。これはシンプルでありながら非常に効果的です。広範な実験により、VPGTransが性能を損なうことなく、転移学習プロセスを大幅に高速化することを示しました。特筆すべきは、スクラッチからVPGをOPT$_\text{6.7B}$に接続することと比較して、BLIP-2 OPT$_\text{2.7B}$からBLIP-2 OPT$_\text{6.7B}$へのVPG転送で10倍の高速化と10.7%のトレーニングデータを実現することができます。さらに、一連の興味深い発見とその背後にある潜在的な理由を提供し、議論します。最後に、私たちのVPGTransアプローチの実用的な価値を、最近リリースされたLLaMAおよびVicuna LLMsとともにVL-LLaMAおよびVL-Vicunaをカスタマイズすることで示します。

要約(オリジナル)

While developing a new vision-language LLM (VL-LLM) by pre-training on tremendous image-text pairs from scratch can be exceedingly resource-consuming, connecting an existing LLM with a comparatively lightweight visual prompt generator (VPG) becomes a feasible paradigm. However, further tuning the VPG part of the VL-LLM still suffers from indispensable computational costs, i.e., requiring thousands of GPU hours and millions of training data. One alternative solution is to transfer an existing VPG from any existing VL-LLMs for the target VL-LLM. In this work, we for the first time investigate the VPG transferability across LLMs, and explore a solution to reduce the cost of VPG transfer. We first study the VPG transfer across different LLM sizes (e.g., small-to-large), and across different LLM types, through which we diagnose the key factors to maximize the transfer efficiency. Based on our observation, we design a two-stage transfer framework named VPGTrans, which is simple yet highly effective. Through extensive experiments, we demonstrate that VPGTrans helps significantly speed up the transfer learning process without compromising performance. Remarkably, it helps achieve the VPG transfer from BLIP-2 OPT$_\text{2.7B}$ to BLIP-2 OPT$_\text{6.7B}$ with over 10 times speed-up and 10.7% training data compared with connecting a VPG to OPT$_\text{6.7B}$ from scratch. Further, a series of intriguing findings and potential rationales behind them are provided and discussed. Finally, we showcase the practical value of our VPGTrans approach, by customizing two novel VL-LLMs, including VL-LLaMA and VL-Vicuna, with recently released LLaMA and Vicuna LLMs.

arxiv情報

著者 Ao Zhang,Hao Fei,Yuan Yao,Wei Ji,Li Li,Zhiyuan Liu,Tat-Seng Chua
発行日 2023-05-02 09:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク