自己教師あり事前トレーニング (SSP) は、ラベル付きデータなしで意味のある特徴表現を抽出できるようにする機械学習の一般的な手法として登場しました。
コンピューター ビジョンの分野では、事前学習済みビジョン トランスフォーマー (ViT) が転移学習の進歩において極めて重要な役割を果たしてきました。
それにもかかわらず、モデル サイズの爆発的な増加により、これらの大規模なモデルを微調整するコストが増大し、課題が生じています。
この研究は、目に見えないオブジェクトの一般化と認識における人間のような能力をエミュレートすることを目的として、微調整の必要性を回避し、コンピューター ビジョン タスクにおける純粋な自己教師あり学習 (SSL) 技術の有効性を評価することに努めています。
プロンプトとしてターゲット オブジェクト上の点が与えられると、アルゴリズムは選択されたパッチと他のパッチの間の類似性マップを計算し、その上で単純なしきい値処理が適用されてターゲットをセグメント化します。
別の評価は、SSP ViT の識別能力を評価するためのオブジェクト内およびオブジェクト間の類似性です。
SSP のプロンプトおよび識別能力からのゼロショット セグメンテーションからの洞察は、MMC と呼ばれる単純な SSP アプローチの設計につながりました。
このアプローチは、ローカル特徴の類似性を促進するためのマスクされた画像モデリング、グローバルからローカル特徴へセマンティクスを転送するためのモメンタムベースの自己蒸留、およびグローバル特徴のセマンティクスを促進するためのグローバル コントラストを組み合わせて、SSP ViT の識別表現を強化します。
私たちの実験では、MMC がさまざまなデータセットにわたるゼロショット セマンティック セグメンテーションで最高レベルの結果を提供することが明らかになりました。
Self-supervised pretraining (SSP) has emerged as a popular technique in machine learning, enabling the extraction of meaningful feature representations without labelled data. In the realm of computer vision, pretrained vision transformers (ViTs) have played a pivotal role in advancing transfer learning. Nonetheless, the escalating cost of finetuning these large models has posed a challenge due to the explosion of model size. This study endeavours to evaluate the effectiveness of pure self-supervised learning (SSL) techniques in computer vision tasks, obviating the need for finetuning, with the intention of emulating human-like capabilities in generalisation and recognition of unseen objects. To this end, we propose an evaluation protocol for zero-shot segmentation based on a prompting patch. Given a point on the target object as a prompt, the algorithm calculates the similarity map between the selected patch and other patches, upon that, a simple thresholding is applied to segment the target. Another evaluation is intra-object and inter-object similarity to gauge discriminatory ability of SSP ViTs. Insights from zero-shot segmentation from prompting and discriminatory abilities of SSP led to the design of a simple SSP approach, termed MMC. This approaches combines Masked image modelling for encouraging similarity of local features, Momentum based self-distillation for transferring semantics from global to local features, and global Contrast for promoting semantics of global features, to enhance discriminative representations of SSP ViTs. Consequently, our proposed method significantly reduces the overlap of intra-object and inter-object similarities, thereby facilitating effective object segmentation within an image. Our experiments reveal that MMC delivers top-tier results in zero-shot semantic segmentation across various datasets.
著者 | Jiantao Wu,Shentong Mo,Muhammad Awais,Sara Atito,Zhenhua Feng,Josef Kittler |
発行日 | 2023-08-22 13:55:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google