Towards Efficient Task-Driven Model Reprogramming with Foundation Models

要約

タイトル:「効率的なタスク駆動型モデル再プログラミングに向けてのファンデーションモデル」

要約:

– ファンデーションモデルは非常に大きなモデル容量と幅広いトレーニングデータによって印象的なパワーを持っており、かなりの実用的な価値がある。
– しかしながら、実際のDownstreamシナリオでは、制限された計算リソースまたは効率的な考慮から、小型のモデルしかサポートできない場合がある。
– さらに、ファンデーションモデルのPre-Trainingに使用されるデータは通常、Downstreamタスクのターゲットデータから非常に異なっており目には見えないため、実際のアプリケーションにおいて危険をもたらしている。
– これは、ファンデーションモデルの利用にとって重大な課題である。ファンデーションモデルから知識を転送するためには、Downstreamタスクの異なるアーキテクチャに対して異なったDownstreamターゲットデータしかない場合がある。
– 既存のTransfer LearningやKnowledge Distillation方法では、同じモデル構造またはファインチューニングに依存しており、単純にこれらの方法を導入することは実現不可能な場合がある。
– これを解決するために、我々はタスク駆動型モデル再プログラミング(TDMR)フレームワークを提案している。
– 具体的には、ファンデーションモデルを再プログラミングして、知識をプロキシスペースにプロジェクトし、タスクミスマッチとドメインの不一致の影響を軽減する。
– 次に、プロキシスペースからターゲットモデルへのプログレッシブディスティレーションを通じて、再プログラムされたファンデーションモデルから知識を効率的に学習することにより、ターゲットモデルを再プログラムする。
– TDMRは、さまざまなPre-Trainedモデル(CNN、トランスフォーマー、またはそのミックス)と限られたターゲットデータに対して互換性があり、コスト効率的な方法でビジョンファンデーションモデルの広範なアプリケーションをDownstreamタスクに促進する。
– 異なるDownstream分類タスクやターゲットモデル構造での大規模な実験により、CNNとTransformerファンデーションモデルの両方で我々の方法の効果が証明された。

要約(オリジナル)

Vision foundation models exhibit impressive power, benefiting from the extremely large model capacity and broad training data. However, in practice, downstream scenarios may only support a small model due to the limited computational resources or efficiency considerations. Moreover, the data used for pretraining foundation models are usually invisible and very different from the target data of downstream tasks. This brings a critical challenge for the real-world application of foundation models: one has to transfer the knowledge of a foundation model to the downstream task that has a quite different architecture with only downstream target data. Existing transfer learning or knowledge distillation methods depend on either the same model structure or finetuning of the foundation model. Thus, naively introducing these methods can be either infeasible or very inefficient. To address this, we propose a Task-Driven Model Reprogramming (TDMR) framework. Specifically, we reprogram the foundation model to project the knowledge into a proxy space, which alleviates the adverse effect of task mismatch and domain inconsistency. Then, we reprogram the target model via progressive distillation from the proxy space to efficiently learn the knowledge from the reprogrammed foundation model. TDMR is compatible with different pre-trained model types (CNN, transformer or their mix) and limited target data, and promotes the wide applications of vision foundation models to downstream tasks in a cost-effective manner. Extensive experiments on different downstream classification tasks and target model structures demonstrate the effectiveness of our methods with both CNNs and transformer foundation models.

arxiv情報

著者 Shoukai Xu,Jiangchao Yao,Ran Luo,Shuhai Zhang,Zihao Lian,Mingkui Tan,Yaowei Wang
発行日 2023-04-05 07:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク