An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training

要約

複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを紹介します。
マルチタスク学習は大幅に進歩しているにもかかわらず、ほとんどの取り組みはマルチラベル データ、つまり複数のタスク ラベルが付いた単一の画像セットからの学習に焦点を当てています。
このようなマルチラベル データ セットはまれで、小さく、高価です。
異なるタスク ラベルを持つ画像セット、または単一タスク データセットの組み合わせを指す場合、「異種」と呼びます。
このような異種データセットでのトレーニングを検討した人はほとんどいません。
汎用視覚モデルは依然としてシングルタスクの事前トレーニングが主流であり、さまざまな目的のために設計された主流の視覚データセットを活用してマルチタスク モデルをスケールアップする方法は依然として不明です。
課題は、データ配布、アーキテクチャ、タスク固有のモジュール、データセットのスケール、サンプリング戦略など、ビジョン タスク間の大きな本質的な違いを管理することにあります。
これらの課題に対処するために、専門家混合 (MoE) ビジョン トランスフォーマーを修正してスケールアップし、ImageNet、COCO、ADE20K などの多様な主流のビジョン データセットで分類、検出、セグメンテーションを同時に学習できるようにすることを提案します。
私たちのアプローチは、単一タスクの最先端モデルと同等の結果を達成し、下流タスクでの強力な一般化を実証します。
新たなモジュール性により、この汎用モデルは高性能コンポーネントに分解され、下流のタスクに効率的に適応します。
より少ないトレーニング パラメーター、より少ないモデル パラメーター、およびより少ない計算で微調整できます。
さらに、そのモジュール性により、忘れることなく継続的に学習するシナリオでの拡張が容易になります。
最後に、これらの機能を制御および組み合わせて、下流タスクのさまざまな要求を満たすことができます。

要約(オリジナル)

We present a model that can perform multiple vision tasks and can be adapted to other downstream tasks efficiently. Despite considerable progress in multi-task learning, most efforts focus on learning from multi-label data: a single image set with multiple task labels. Such multi-label data sets are rare, small, and expensive. We say heterogeneous to refer to image sets with different task labels, or to combinations of single-task datasets. Few have explored training on such heterogeneous datasets. General-purpose vision models are still dominated by single-task pretraining, and it remains unclear how to scale up multi-task models by leveraging mainstream vision datasets designed for different purposes. The challenges lie in managing large intrinsic differences among vision tasks, including data distribution, architectures, task-specific modules, dataset scales, and sampling strategies. To address these challenges, we propose to modify and scale up mixture-of-experts (MoE) vision transformers, so that they can simultaneously learn classification, detection, and segmentation on diverse mainstream vision datasets including ImageNet, COCO, and ADE20K. Our approach achieves comparable results to single-task state-of-the-art models and demonstrates strong generalization on downstream tasks. Due to its emergent modularity, this general-purpose model decomposes into high-performing components, efficiently adapting to downstream tasks. We can fine-tune it with fewer training parameters, fewer model parameters, and less computation. Additionally, its modularity allows for easy expansion in continual-learning-without-forgetting scenarios. Finally, these functions can be controlled and combined to meet various demands of downstream tasks.

arxiv情報

著者 Zitian Chen,Mingyu Ding,Yikang Shen,Wei Zhan,Masayoshi Tomizuka,Erik Learned-Miller,Chuang Gan
発行日 2023-06-29 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク