要約
【タイトル】AutoTaskFormer:マルチタスク学習のためのビジョントランスフォーマーの検索
【要約】
– ビジョントランスフォーマーは分類やセグメンテーションなどの単一タスクにおいて高い性能を示しているが、現実世界の問題は単一ではないため、複数のタスクを同時に実行できるビジョントランスフォーマーが必要とされている。
– 既存のマルチタスクビジョントランスフォーマーは手作業で作成され、人間の専門知識に大きく依存している。
– 本研究では、AutoTaskFormer(Automated Multi-Task Vision TransFormer)と呼ばれる新しいワンショットニューラルアーキテクチャ検索フレームワークを提案し、このプロセスを自動化する。AutoTaskFormerは、複数のタスクに共有する重みを自動的に特定するだけでなく、幅広いパラメータ(ヘッドの数やネットワークの深さなど)を持つ数千のトレーニング済みのビジョントランスフォーマーを提供し、さまざまなリソース制約の下で展開する。
– 小規模(2タスクCityscapes、3タスクNYUv2)および大規模(16タスクTaskonomy)データセットでの実験により、AutoTaskFormerはマルチタスク学習において最先端の手作業ビジョントランスフォーマーを上回る性能を発揮することが示された。
– コードおよびモデルは完全にオープンソース化される。
要約(オリジナル)
Vision Transformers have shown great performance in single tasks such as classification and segmentation. However, real-world problems are not isolated, which calls for vision transformers that can perform multiple tasks concurrently. Existing multi-task vision transformers are handcrafted and heavily rely on human expertise. In this work, we propose a novel one-shot neural architecture search framework, dubbed AutoTaskFormer (Automated Multi-Task Vision TransFormer), to automate this process. AutoTaskFormer not only identifies the weights to share across multiple tasks automatically, but also provides thousands of well-trained vision transformers with a wide range of parameters (e.g., number of heads and network depth) for deployment under various resource constraints. Experiments on both small-scale (2-task Cityscapes and 3-task NYUv2) and large-scale (16-task Taskonomy) datasets show that AutoTaskFormer outperforms state-of-the-art handcrafted vision transformers in multi-task learning. The entire code and models will be open-sourced.
arxiv情報
著者 | Yang Liu,Shen Yan,Yuge Zhang,Kan Ren,Quanlu Zhang,Zebin Ren,Deng Cai,Mi Zhang |
発行日 | 2023-04-20 02:27:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI