要約
効率的なマルチモーダル大規模言語モデル (EMLLM) は、マルチモーダル大規模言語モデル (MLLM) とは対照的に、モデル サイズと計算コストを削減し、多くの場合、リソースに制約のあるデバイスに展開されます。
ただし、データ プライバシーの懸念により、既存のオープンソース EMLLM は事前トレーニング プロセス中にプライベート ドメイン固有のデータにアクセスすることがほとんどないため、特定のビジネス シナリオなどのデバイス固有のドメインに直接適用することが困難になります。
この弱点に対処するために、このホワイト ペーパーでは、プライベート ドメインへの EMLLM の効率的な適応、特に 1) データ要件を削減する方法、2) パラメータの微調整を回避する方法の 2 つの領域に焦点を当てます。
具体的には、tun\textbf{\underline{I}}ng-free、a\textbf{\underline{D}}aptiv\textbf{\underline{E}}、univers\textbf{\underline{AL}} を提案します。
\textbf{\underline{Prompt}} 最適化フレームワーク、\textit{\textbf{\ourmethod{}}} と略され、2 つのステージで構成されます: 1)
事前定義されたプロンプトは、強化探索戦略に基づいて、最適化事前分布を取得するためのプロンプト最適化戦略ツリーを生成します。
2) プロンプト リフレクションは、最適化事前条件に基づいてプロンプトを初期化し、その後、プロンプトをさらに検索して調整するための自己リフレクションが続きます。
そうすることで、\ourmethod{} はプライベート ドメイン固有のデータを処理するための「理想的なプロンプト」をエレガントに生成します。
私たちの方法はパラメータの微調整を必要とせず、プライベートデータのデータ分布に迅速に適応するために少量のデータだけを必要とすることに注意してください。
複数のタスクにわたる広範な実験により、私たちが提案した \ourmethod{} がベースラインと比較して効率とパフォーマンスの両方を大幅に向上させることが実証されました。
要約(オリジナル)
Efficient multimodal large language models (EMLLMs), in contrast to multimodal large language models (MLLMs), reduce model size and computational costs and are often deployed on resource-constrained devices. However, due to data privacy concerns, existing open-source EMLLMs rarely have access to private domain-specific data during the pre-training process, making them difficult to directly apply in device-specific domains, such as certain business scenarios. To address this weakness, this paper focuses on the efficient adaptation of EMLLMs to private domains, specifically in two areas: 1) how to reduce data requirements, and 2) how to avoid parameter fine-tuning. Specifically, we propose a tun\textbf{\underline{I}}ng-free, a\textbf{\underline{D}}aptiv\textbf{\underline{E}}, univers\textbf{\underline{AL}} \textbf{\underline{Prompt}} Optimization Framework, abbreviated as \textit{\textbf{\ourmethod{}}} which consists of two stages: 1) Predefined Prompt, based on the reinforcement searching strategy, generate a prompt optimization strategy tree to acquire optimization priors; 2) Prompt Reflection initializes the prompt based on optimization priors, followed by self-reflection to further search and refine the prompt. By doing so, \ourmethod{} elegantly generates the “ideal prompts” for processing private domain-specific data. Note that our method requires no parameter fine-tuning and only a small amount of data to quickly adapt to the data distribution of private data. Extensive experiments across multiple tasks demonstrate that our proposed \ourmethod{} significantly improves both efficiency and performance compared to baselines.
arxiv情報
著者 | Jiang Liu,Bolin Li,Haoyuan Li,Tianwei Lin,Wenqiao Zhang,Tao Zhong,Zhelun Yu,Jinghao Wei,Hao Cheng,Hao Jiang,Zheqi Lv,Juncheng Li,Siliang Tang,Yueting Zhuang |
発行日 | 2024-12-27 15:21:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google