要約
現在の自己教師付き学習(SSL)手法(例えば、SimCLR、DINO、VICReg、MOCOv3)は、主にインスタンスレベルの表現を対象としており、物体検出やセグメンテーションのような密な予測タスクにはうまく一般化できない。SSLを密な予測に整合させるために、本稿では、自然な画像セマンティクス(例えば、物や物の世界)によく整合する、Vision Transformers(ViT)の基礎となる平均シフトクラスタリング処理を初めて示す。埋め込みとクラスタリングに変換器を用いることで、我々は、特徴レベル自己教師あり学習(FLSL)と呼ばれる2レベル特徴クラスタリングSSL手法を提案する。FLSL問題の正式な定義を示し、平均シフトとk-meansの観点から目的を構築する。FLSLが顕著な意味的クラスタ表現を促進し、ビュー内およびビュー間の特徴クラスタリングに従順な埋め込みスキームを学習することを示す。実験によれば、FLSLは密な予測タスクにおいて大幅な改善をもたらし、物体検出において44.9 (+2.8)%のAPと46.5%のAPを達成し、MS-COCO上のインスタンス分割において、それぞれViT-S/16とViT-S/8をバックボーンとするマスクR-CNNを用いて、40.8 (+2.3)%のAPと42.1%のAPを達成した。FLSLは、UAVDTのUAV17オブジェクト検出、DAVIS 2017のビデオインスタンスセグメンテーションを含む、追加のベンチマークにおいて、一貫して既存のSSL手法を凌駕している。最後に、FLSLの成功をよりよく理解するための可視化と様々なアブレーション研究を紹介する。ソースコードはhttps://github.com/ISL-CV/FLSL。
要約(オリジナル)
Current self-supervised learning (SSL) methods (e.g., SimCLR, DINO, VICReg,MOCOv3) target primarily on representations at instance level and do not generalize well to dense prediction tasks, such as object detection and segmentation.Towards aligning SSL with dense predictions, this paper demonstrates for the first time the underlying mean-shift clustering process of Vision Transformers (ViT), which aligns well with natural image semantics (e.g., a world of objects and stuffs). By employing transformer for joint embedding and clustering, we propose a two-level feature clustering SSL method, coined Feature-Level Self-supervised Learning (FLSL). We present the formal definition of the FLSL problem and construct the objectives from the mean-shift and k-means perspectives. We show that FLSL promotes remarkable semantic cluster representations and learns an embedding scheme amenable to intra-view and inter-view feature clustering. Experiments show that FLSL yields significant improvements in dense prediction tasks, achieving 44.9 (+2.8)% AP and 46.5% AP in object detection, as well as 40.8 (+2.3)% AP and 42.1% AP in instance segmentation on MS-COCO, using Mask R-CNN with ViT-S/16 and ViT-S/8 as backbone, respectively. FLSL consistently outperforms existing SSL methods across additional benchmarks, including UAV17 object detection on UAVDT, and video instance segmentation on DAVIS 2017.We conclude by presenting visualization and various ablation studies to better understand the success of FLSL. The source code is available at https://github.com/ISL-CV/FLSL.
arxiv情報
著者 | Qing Su,Anton Netchaev,Hai Li,Shihao Ji |
発行日 | 2023-11-06 18:12:33+00:00 |
arxivサイト | arxiv_id(pdf) |