要約
クリップなどのビジョン言語対照学習フレームワークは、自然言語の監督から学習表現を可能にし、強力なゼロショット分類機能を提供します。
ただし、これらのパラダイムの監督信号の性質により、局所的な機能を学習する能力がなく、セグメンテーションや検出などの密な予測タスクのパフォーマンスが低下します。
一方、自己教師の学習方法は、視覚系トレーニングの高レベルの機能を補完する粒状表現を学習する能力を示しています。
この作業では、視覚言語のトレーニングと差別的および生成的なセルフスーパービジョンを組み合わせて、さまざまなビジョンの下流タスクで一般化できる視覚的特徴を学習するフレームワークであるHarmonyを提示します。
私たちのフレームワークは、ネガティブな例に依存せず、EMAモデルによって生成されたソフトクリップターゲットを使用して1対1の対応の問題に対処することにより、Webスクレイプデータで動作するように特別に設計されています。
さまざまなビジョンの下流タスクにわたるハーモニーを包括的に評価し、ベースラインクリップと以前の主要な関節自己および弱く監視された方法、マスククリップとスリップを大幅に上回ることがわかります。
具体的には、これらの方法と比較すると、ハーモニーは、CC3MでVIT-Bを事前トレーニングするときに、Imagenet-1Kの微調整およびゼロショット分類、ADE20Kのセマンティックセグメンテーション、およびMS-COCOのオブジェクト検出とインスタンスセグメンテーションの両方で優れたパフォーマンスを示します。
また、ハーモニーは、評価されたすべてのタスクでIbotやMAEなどの他の自己監視学習方法を上回ることも示しています。
私たちのコードは、https://github.com/mohammedsb/harmony} {https://github.com/mohammedsb/harmonyで公開されています。
要約(オリジナル)
Vision-language contrastive learning frameworks like CLIP enable learning representations from natural language supervision, and provide strong zero-shot classification capabilities. However, due to the nature of the supervisory signal in these paradigms, they lack the ability to learn localized features, leading to degraded performance on dense prediction tasks like segmentation and detection. On the other hand, self-supervised learning methods have shown the ability to learn granular representations, complementing the high-level features in vision-language training. In this work, we present Harmony, a framework that combines vision-language training with discriminative and generative self-supervision to learn visual features that can be generalized across different vision downstream tasks. Our framework is specifically designed to work on web-scraped data by not relying on negative examples and addressing the one-to-one correspondence issue using soft CLIP targets generated by an EMA model. We comprehensively evaluate Harmony across various vision downstream tasks and find that it significantly outperforms the baseline CLIP and the previously leading joint self and weakly-supervised methods, MaskCLIP and SLIP. Specifically, when comparing against these methods, Harmony shows superior performance in fine-tuning and zero-shot classification on ImageNet-1k, semantic segmentation on ADE20K, and both object detection and instance segmentation on MS-COCO, when pre-training a ViT-B on CC3M. We also show that Harmony outperforms other self-supervised learning methods like iBOT and MAE across all tasks evaluated. Our code is publicly at https://github.com/MohammedSB/Harmony}{https://github.com/MohammedSB/Harmony available.
arxiv情報
著者 | Mohammed Baharoon,Jonathan Klein,Dominik L. Michels |
発行日 | 2025-03-26 16:23:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google