要約
複数の下流タスクを同時に全体的に理解することを目指して、より優れた転送可能性で機能を抽出する必要があります。
多くの最新の自己教師付き事前トレーニング方法は、一般的な事前トレーニングと微調整のパラダイムの下で、さまざまな視覚タスクで印象的なパフォーマンスを達成していますが、マルチタスク学習シナリオへの一般化能力はまだ調査されていません。
このホワイト ペーパーでは、大規模な運転データセットで、セマンティック セグメンテーション、運転可能エリア セグメンテーション、交通オブジェクト検出を含む 3 つのダウンストリーム タスクで、MoCo や SimCLR などのさまざまなタイプの自己教師ありメソッドの転送パフォーマンスを広範に調査します。
BDD100K。
驚くべきことに、それらのパフォーマンスは最適ではないか、単一タスクのベースラインよりもはるかに遅れていることがわかりました。これは、トレーニングの目的とアーキテクチャ設計の違いが原因である可能性があり、事前トレーニングと微調整のパラダイムにありました。
このジレンマを克服し、リソース集約型の事前トレーニング段階の再設計を回避するために、一般的なマルチタスク トレーニング用のシンプルで効果的な事前トレーニング – 適応 – 微調整パラダイムを提案します。
トレーニングのオーバーヘッドを増やすことなく。
適応段階では、学習可能なマルチスケール アダプターを利用して、マルチタスク目標によって監視される事前トレーニング済みモデルの重みを動的に調整しますが、事前トレーニング済みの知識はそのままにします。
さらに、ビジョン言語事前トレーニング モデル CLIP を pretrain-adapt-finetune パラダイムを強力に補完するものと見なし、LV-Adapter という名前の新しいアダプターを提案します。LV-Adapter は、タスク固有のプロンプトを介してマルチタスク モデルに言語の優先順位を組み込みます。
視覚的特徴とテキスト的特徴の間の調整。
要約(オリジナル)
Aiming towards a holistic understanding of multiple downstream tasks simultaneously, there is a need for extracting features with better transferability. Though many latest self-supervised pre-training methods have achieved impressive performance on various vision tasks under the prevailing pretrain-finetune paradigm, their generalization capacity to multi-task learning scenarios is yet to be explored. In this paper, we extensively investigate the transfer performance of various types of self-supervised methods, e.g., MoCo and SimCLR, on three downstream tasks, including semantic segmentation, drivable area segmentation, and traffic object detection, on the large-scale driving dataset BDD100K. We surprisingly find that their performances are sub-optimal or even lag far behind the single-task baseline, which may be due to the distinctions of training objectives and architectural design lied in the pretrain-finetune paradigm. To overcome this dilemma as well as avoid redesigning the resource-intensive pre-training stage, we propose a simple yet effective pretrain-adapt-finetune paradigm for general multi-task training, where the off-the-shelf pretrained models can be effectively adapted without increasing the training overhead. During the adapt stage, we utilize learnable multi-scale adapters to dynamically adjust the pretrained model weights supervised by multi-task objectives while leaving the pretrained knowledge untouched. Furthermore, we regard the vision-language pre-training model CLIP as a strong complement to the pretrain-adapt-finetune paradigm and propose a novel adapter named LV-Adapter, which incorporates language priors in the multi-task model via task-specific prompting and alignment between visual and textual features.
arxiv情報
著者 | Xiwen Liang,Yangxin Wu,Jianhua Han,Hang Xu,Chunjing Xu,Xiaodan Liang |
発行日 | 2022-09-19 12:15:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google