要約
多様でオープンな世界を認識する方法で人間の視覚を模倣するには、基盤の視覚モデルが非常に重要です。
最近の自己教師あり学習技術は、このミッションの有望な可能性を示していますが、ラベル付けされたデータからの信号も常識認識にとって重要であり、適切に選択されたプレテキストタスクは視覚表現学習の効率を促進できると主張します。
この目的を達成するために、自己教師ありと教師ありのビジュアルプレテキストタスクをマルチタスク方式で採用することにより、新しい事前トレーニングフレームワークを提案します。
具体的には、画像が与えられた場合、その固有のスタイル プロパティ、オブジェクトの内部とその位置と相関関係、および基本的な視覚的理解を得るために 3D 空間でどのように見えるかを考慮するヒューリスティックな方法を採用します。
ただし、大規模なオブジェクトの境界ボックスと相関関係を実現するのは通常は困難です。
あるいは、マルチラベル分類と自己教師あり学習の両方を活用するハイブリッド手法を開発します。
一方で、マルチラベルの監視下では、事前トレーニングされたモデルは、画像の詳細情報 (画像の種類、オブジェクト、意味関係の一部など) を探索できます。
一方、マスク イメージ モデリング (MIM) と対照学習に関する自己教師あり学習タスクは、モデルがピクセルの詳細とパッチの相関関係を学習するのに役立ちます。
結果は、事前トレーニングされたモデルが複数の視覚タスクで最先端 (SOTA) の結果と同等またはそれ以上の結果を提供できることを示しています。
たとえば、バニラの Swin-B バックボーンでは、ImageNet-1K 分類で 85.3% のトップ 1 精度、Mask R-CNN の COCO オブジェクト検出で 47.9 ボックス AP、ADE-20K セマンティック セグメンテーションで 50.6 mIoU を達成しました。
アッパーネット。
このパフォーマンスは、当社のビジョン基盤モデルが汎用のビジョン タスクに対応できることを示しています。
要約(オリジナル)
To mimic human vision with the way of recognizing the diverse and open world, foundation vision models are much critical. While recent techniques of self-supervised learning show the promising potentiality of this mission, we argue that signals from labelled data are also important for common-sense recognition, and properly chosen pre-text tasks can facilitate the efficiency of vision representation learning. To this end, we propose a novel pre-training framework by adopting both self-supervised and supervised visual pre-text tasks in a multi-task manner. Specifically, given an image, we take a heuristic way by considering its intrinsic style properties, inside objects with their locations and correlations, and how it looks like in 3D space for basic visual understanding. However, large-scale object bounding boxes and correlations are usually hard to achieve. Alternatively, we develop a hybrid method by leveraging both multi-label classification and self-supervised learning. On the one hand, under the multi-label supervision, the pre-trained model can explore the detailed information of an image, e.g., image types, objects, and part of semantic relations. On the other hand, self-supervised learning tasks, with respect to Masked Image Modeling (MIM) and contrastive learning, can help the model learn pixel details and patch correlations. Results show that our pre-trained models can deliver results on par with or better than state-of-the-art (SOTA) results on multiple visual tasks. For example, with a vanilla Swin-B backbone, we achieve 85.3\% top-1 accuracy on ImageNet-1K classification, 47.9 box AP on COCO object detection for Mask R-CNN, and 50.6 mIoU on ADE-20K semantic segmentation when using Upernet. The performance shows the ability of our vision foundation model to serve general purpose vision tasks.
arxiv情報
著者 | Zhiming Qian |
発行日 | 2023-10-11 14:06:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google