要約
近年の Vision Foundation Models (VFM) の開発により、ほとんどのシナリオでモデルを変更するよりも Visual In-Context Learning (VICL) がより良い選択肢になりました。
モデルの再トレーニングや微調整とは異なり、VICL ではモデルの重みやアーキテクチャを変更する必要はなく、タスクの解決方法を VFM に教えるためのデモンストレーションを伴うプロンプトのみが必要です。
現在、プロンプトの構築にどのデモンストレーションを使用するかを決定するのは非常にコストがかかるため、すべてのテスト サンプルに対して最適なプロンプトを見つけるための膨大な計算コストが VICL の展開の妨げとなっています。
しかし、この論文では、ほとんどのテスト サンプルが実際には同じプロンプトの下で最適なパフォーマンスを達成しており、サンプル レベルのプロンプトを検索すると時間がかかるだけで、結果は完全に同じプロンプトになるという直観に反する現象を発見しました。
したがって、推論段階でのプロンプト検索のコストを削減するためにタスク レベルのプロンプトを提案し、時間を節約しつつも効果的な 2 つのタスク レベル プロンプト検索戦略を紹介します。
広範な実験結果は、私たちが提案した方法が最適に近いプロンプトを特定し、これまでの研究では達成できなかった最小限のコストで最高の VICL パフォーマンスを達成できることを示しています。
要約(オリジナル)
With the development of Vision Foundation Models (VFMs) in recent years, Visual In-Context Learning (VICL) has become a better choice compared to modifying models in most scenarios. Different from retraining or fine-tuning model, VICL does not require modifications to the model’s weights or architecture, and only needs a prompt with demonstrations to teach VFM how to solve tasks. Currently, significant computational cost for finding optimal prompts for every test sample hinders the deployment of VICL, as determining which demonstrations to use for constructing prompts is very costly. In this paper, however, we find a counterintuitive phenomenon that most test samples actually achieve optimal performance under the same prompts, and searching for sample-level prompts only costs more time but results in completely identical prompts. Therefore, we propose task-level prompting to reduce the cost of searching for prompts during the inference stage and introduce two time-saving yet effective task-level prompt search strategies. Extensive experimental results show that our proposed method can identify near-optimal prompts and reach the best VICL performance with a minimal cost that prior work has never achieved.
arxiv情報
著者 | Yan Zhu,Huan Ma,Changqing Zhang |
発行日 | 2025-01-15 14:52:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google