GPPF: A General Perception Pre-training Framework via Sparsely Activated Multi-Task Learning

要約

マルチタスク、マルチドメイン、マルチモーダルデータが混在する視覚知覚の事前学習は、依然として未解決の課題である。本論文では、マルチタスク・マルチドメイン・データに対して、タスクレベルの動的ネットワーク(各層の知識レゴで構成)を事前学習するGPPF(General Perception Pre-Training Framework)を提案する。人間の複雑な環境下での学習能力を検証することで、以下の3つの重要な要素を認識し、ディープネットワークに伝達する。(2)知識の共有により、別々のレゴユニットに分割された知識の保存。(3)事前学習と下流タスクの両方でレゴユニットのサブセットをまばらに活性化する。注目すべきは、入力形状、損失関数、出力フォーマット、データ分布などが異なるため、異種視覚タスクの共同学習は自明ではないことである。そこで我々は、SIMT(Single Iteration Multiple Tasks)同時学習をサポートするプラグアンドプレイのマルチタスク学習アルゴリズムを開発しました。SIMTは、大規模なマルチタスクマルチドメインデータセットを用いた事前学習の基礎を築き、我々のGPPF実験において安定した学習を行うために不可欠であることが証明された。その結果、GPPF-R50は、GPPF-15Mの8つの事前学習タスクのベースラインに対して2.5-5.8の大幅な改善を達成し、同様の計算量で下流の22タスクに対して様々なSOTAを獲得することを示しました。また、GPPFのSOTAビジョン変換器への汎化能力も検証し、一貫した改善を示した。これらの実験結果は、我々のGPPFフレームワークが提供する効果的な知識の学習、蓄積、共有、伝達を完全に証明するものです。

要約(オリジナル)

Pre-training over mixtured multi-task, multi-domain, and multi-modal data remains an open challenge in vision perception pre-training. In this paper, we propose GPPF, a General Perception Pre-training Framework, that pre-trains a task-level dynamic network, which is composed by knowledge ‘legos’ in each layers, on labeled multi-task and multi-domain datasets. By inspecting humans’ innate ability to learn in complex environment, we recognize and transfer three critical elements to deep networks: (1) simultaneous exposure to diverse cross-task and cross-domain information in each batch. (2) partitioned knowledge storage in separate lego units driven by knowledge sharing. (3) sparse activation of a subset of lego units for both pre-training and downstream tasks. Noteworthy, the joint training of disparate vision tasks is non-trivial due to their differences in input shapes, loss functions, output formats, data distributions, etc. Therefore, we innovatively develop a plug-and-play multi-task training algorithm, which supports Single Iteration Multiple Tasks (SIMT) concurrently training. SIMT lays the foundation of pre-training with large-scale multi-task multi-domain datasets and is proved essential for stable training in our GPPF experiments. Excitingly, the exhaustive experiments show that, our GPPF-R50 model achieves significant improvements of 2.5-5.8 over a strong baseline of the 8 pre-training tasks in GPPF-15M and harvests a range of SOTAs over the 22 downstream tasks with similar computation budgets. We also validate the generalization ability of GPPF to SOTA vision transformers with consistent improvements. These solid experimental results fully prove the effective knowledge learning, storing, sharing, and transfer provided by our novel GPPF framework.

arxiv情報

著者 Benyuan Sun,Jin Dai,Zihao Liang,Congying Liu,Yi Yang,Bo Bai
発行日 2022-08-04 04:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク