要約
大規模ビジョンの事前トレーニング済みモデルの急速なスケーリングにより、計算リソースが少ないエッジ デバイスではタスクの微調整がますます困難になります。
私たちは、エッジ チューニングと呼ばれる新しい視覚適応パラダイムを探索します。これは、大規模な事前トレーニング済みモデルを、強力なクラウド サーバー上で実行されるスタンドアロンの特徴抽出器として扱います。
微調整は、必要な計算リソースが少ない小規模ネットワークのエッジ デバイスで実行されます。
私たちのエッジ調整パラダイムに潜在的に適している既存の方法について説明します。
しかし、低い適応能力、大規模なアダプタ ネットワーク、および高い情報転送オーバーヘッドという 3 つの大きな欠点がエッジ チューニングへの適用を妨げています。
これらの問題に対処するために、私たちは Minimal Interaction Edge Tuning (MIET) を提案します。これは、事前学習済みモデルからの中間特徴の合計が最小限の情報伝達を持つだけでなく、高い適応能力も備えていることを明らかにします。
MIET は、軽量のアテンションベースのアダプター ネットワークを使用して、情報転送効率、パラメータ効率、計算効率、メモリ効率を達成し、同時にさまざまな視覚適応ベンチマークで競争力のある結果を実証します。
要約(オリジナル)
The rapid scaling of large vision pretrained models makes fine-tuning tasks more and more difficult on edge devices with low computational resources. We explore a new visual adaptation paradigm called edge tuning, which treats large pretrained models as standalone feature extractors that run on powerful cloud servers. The fine-tuning carries out on edge devices with small networks which require low computational resources. Existing methods that are potentially suitable for our edge tuning paradigm are discussed. But, three major drawbacks hinder their application in edge tuning: low adaptation capability, large adapter network, and high information transfer overhead. To address these issues, we propose Minimal Interaction Edge Tuning, or MIET, which reveals that the sum of intermediate features from pretrained models not only has minimal information transfer but also has high adaptation capability. With a lightweight attention-based adaptor network, MIET achieves information transfer efficiency, parameter efficiency, computational and memory efficiency, and at the same time demonstrates competitive results on various visual adaptation benchmarks.
arxiv情報
著者 | Ningyuan Tang,Minghao Fu,Jianxin Wu |
発行日 | 2024-06-25 13:54:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google