LION: Implicit Vision Prompt Tuning

要約

さまざまなビジョン タスクでの最近の競争力のあるパフォーマンスにもかかわらず、ビジョン トランスフォーマーは依然として計算コストが高いという問題を抱えています。
最近、視覚プロンプト学習は、大規模なモデル全体を微調整することなく、この問題に対する経済的な解決策を提供しました。
ただし、既存のモデルの効率は、広範なプロンプト ブロックの挿入とトリック プロンプト デザインにより、まだ満足のいくものにはほど遠いものです。
この論文では、さまざまな複雑なタスクに対して安定したメモリコストを持つ深い暗黙的モデルによって動機付けられる、暗黙的ビジョンプロンプトチューニング(LION)と呼ばれる効率的なビジョンモデルを提案します。
具体的には、事前にトレーニングされたメイン バックボーンの 2 つの端に 2 つの平衡暗黙レイヤーを挿入し、バックボーンのパラメーターを固定します。
さらに、宝くじ仮説に従って、これら 2 つのレイヤーのパラメーターを切り詰めます。
LION によって得られたパフォーマンスは、幅広いデータセットで有望です。
特に、当社の LION はトレーニング パラメーター数を最大 11.5% 削減しながら、特に困難なシーンでは、最先端のベースライン VPT と比較してより高いパフォーマンスを得ています。
さらに、提案した LION は一般化のパフォーマンスが優れていることがわかり、将来、転移学習を促進する簡単な方法になります。

要約(オリジナル)

Despite recent competitive performance across a range of vision tasks, vision Transformers still have an issue of heavy computational costs. Recently, vision prompt learning has provided an economic solution to this problem without fine-tuning the whole large-scale models. However, the efficiency of existing models are still far from satisfactory due to insertion of extensive prompts blocks and trick prompt designs. In this paper, we propose an efficient vision model named impLicit vIsion prOmpt tuNing (LION), which is motivated by deep implicit models with stable memory costs for various complex tasks. In particular, we merely insect two equilibrium implicit layers in two ends of the pre-trained main backbone with parameters in the backbone frozen. Moreover, we prune the parameters in these two layers according to lottery hypothesis. The performance obtained by our LION are promising on a wide range of datasets. In particular, our LION reduces up to 11.5% of training parameter numbers while obtaining higher performance compared with the state-of-the-art baseline VPT, especially under challenging scenes. Furthermore, we find that our proposed LION had a good generalization performance, making it an easy way to boost transfer learning in the future.

arxiv情報

著者 Haixin Wang,Jianlong Chang,Xiao Luo,Jinan Sun,Zhouchen Lin,Qi Tian
発行日 2023-03-17 14:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク