要約
単一のディープ ニューラル ネットワークである普遍的な表現を通じて、複数のビジョン タスクと視覚ドメインを共同で学習することについて、統一された見方を提案します。
複数の問題を同時に学習するには、大きさと特性が異なる複数の損失関数の加重和を最小化する必要があるため、1 つの損失が最適化を支配する不均衡な状態になり、問題ごとに個別のモデルを学習する場合と比較して結果が悪くなります。
この目的のために、小容量のアダプターを介してその表現をタスク/ドメイン固有のものと調整した後、複数のタスク/ドメイン固有ネットワークの知識を単一のディープ ニューラル ネットワークに抽出することを提案します。
NYU-v2 と Cityscapes の複数の密な予測問題、Visual Decathlon Dataset の多様なドメインからの複数の画像分類問題、および MetaDataset のクロスドメインの少数ショット学習の学習において、ユニバーサル表現が最先端のパフォーマンスを達成することを厳密に示します。
.
最後に、アブレーションおよび定性的研究による多重分析も行います。
要約(オリジナル)
We propose a unified look at jointly learning multiple vision tasks and visual domains through universal representations, a single deep neural network. Learning multiple problems simultaneously involves minimizing a weighted sum of multiple loss functions with different magnitudes and characteristics and thus results in unbalanced state of one loss dominating the optimization and poor results compared to learning a separate model for each problem. To this end, we propose distilling knowledge of multiple task/domain-specific networks into a single deep neural network after aligning its representations with the task/domain-specific ones through small capacity adapters. We rigorously show that universal representations achieve state-of-the-art performances in learning of multiple dense prediction problems in NYU-v2 and Cityscapes, multiple image classification problems from diverse domains in Visual Decathlon Dataset and cross-domain few-shot learning in MetaDataset. Finally we also conduct multiple analysis through ablation and qualitative studies.
arxiv情報
著者 | Wei-Hong Li,Xialei Liu,Hakan Bilen |
発行日 | 2022-08-30 12:02:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google