Enhancing CNNs robustness to occlusions with bioinspired filters for border completion

要約

CNNのカスタムフィルターを定義するために、境界完了のための視覚皮質メカニズムの数学的モデリングを活用します。
修正されたLENET 5が閉塞されたMNIST画像でテストされている場合、特に精度のパフォーマンスが一貫した改善が見られます。

要約(オリジナル)

We exploit the mathematical modeling of the visual cortex mechanism for border completion to define custom filters for CNNs. We see a consistent improvement in performance, particularly in accuracy, when our modified LeNet 5 is tested with occluded MNIST images.

arxiv情報

著者 Catarina P. Coutinho,Aneeqa Merhab,Janko Petkovic,Ferdinando Zanchetta,Rita Fioresi
発行日 2025-04-24 14:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Enhancing CNNs robustness to occlusions with bioinspired filters for border completion はコメントを受け付けていません

Improving Open-World Object Localization by Discovering Background

要約

私たちの作品は、オープンワールド設定でオブジェクトをローカライズすることを学ぶ問題に対処します。つまり、トレーニング中の限られた数のオブジェクトクラスの境界ボックス情報を考えると、目標は、推論中に画像内のトレーニングと目に見えないクラスの両方に属するすべてのオブジェクトをローカライズすることです。
この目的に向けて、この領域での最近の作業は、新しい目的関数(ローカリゼーションの品質)を提案することにより、明示的にオブジェクトの特性評価を改善するか、深さ情報、ピクセル/地域の親和性マップなどのオブジェクト中心の補助情報を暗黙的に使用することに焦点を当てています。
具体的には、画像内の背景領域を発見し、これらの領域のオブジェクトを検出しないようにオブジェクト提案ネットワークを訓練するための新しいフレームワークを提案します。
識別的ではない画像領域、つまり冗長で低い情報コンテンツを構成する画像領域を識別するものとして、バックグラウンドディスカバリータスクを策定します。
提案されたアプローチの有効性を紹介するために、標準ベンチマークで実験を実施し、このタスクの以前の最先端のアプローチに対する大幅な改善を観察します。

要約(オリジナル)

Our work addresses the problem of learning to localize objects in an open-world setting, i.e., given the bounding box information of a limited number of object classes during training, the goal is to localize all objects, belonging to both the training and unseen classes in an image, during inference. Towards this end, recent work in this area has focused on improving the characterization of objects either explicitly by proposing new objective functions (localization quality) or implicitly using object-centric auxiliary-information, such as depth information, pixel/region affinity map etc. In this work, we address this problem by incorporating background information to guide the learning of the notion of objectness. Specifically, we propose a novel framework to discover background regions in an image and train an object proposal network to not detect any objects in these regions. We formulate the background discovery task as that of identifying image regions that are not discriminative, i.e., those that are redundant and constitute low information content. We conduct experiments on standard benchmarks to showcase the effectiveness of our proposed approach and observe significant improvements over the previous state-of-the-art approaches for this task.

arxiv情報

著者 Ashish Singh,Michael J. Jones,Kuan-Chuan Peng,Anoop Cherian,Moitreya Chatterjee,Erik Learned-Miller
発行日 2025-04-24 14:48:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Improving Open-World Object Localization by Discovering Background はコメントを受け付けていません

Beyond Labels: Zero-Shot Diabetic Foot Ulcer Wound Segmentation with Self-attention Diffusion Models and the Potential for Text-Guided Customization

要約

糖尿病の足潰瘍(DFU)は、患者の転帰を強化するために正確で効率的な創傷評価を必要とするヘルスケアに大きな課題をもたらします。
この研究では、ラベル付きトレーニングデータに依存せずに創傷セグメンテーションを実行する新しいテキスト誘導拡散モデルである注意拡散ゼロショット非監視システム(ADZUS)を紹介します。
広範な注釈を必要とする従来のディープラーニングモデルとは異なり、Adzusはゼロショット学習を活用して、記述プロンプトに基づいてセグメンテーションを動的に適応させ、臨床アプリケーションで柔軟性と適応性を向上させます。
実験的評価は、Adzusが従来および最先端のセグメンテーションモデルを上回り、86.68 \%のIouを達成し、慢性創傷データセットで94.69 \%の最高精度を達成し、Fusegnetなどの監督者のアプローチを上回ることを示しています。
カスタムキュレーションされたDFUデータセットのさらなる検証は、その堅牢性を強化し、AdzusはFuseGnetの45 \%を大幅に超えて75 \%のDSCの中央値を達成します。
モデルのテキスト誘導セグメンテーション機能により、セグメンテーション出力のリアルタイムのカスタマイズが可能になり、臨床記述に基づいて創傷特性のターゲット分析が可能になります。
競争力のあるパフォーマンスにもかかわらず、拡散ベースの推論の計算コストと潜在的な微調整の必要性は、将来の改善のための領域のままです。
Adzusは、創傷セグメンテーションにおける変革的なステップを表し、医療イメージングにスケーラブルで効率的で適応性のあるAI駆動型ソリューションを提供します。

要約(オリジナル)

Diabetic foot ulcers (DFUs) pose a significant challenge in healthcare, requiring precise and efficient wound assessment to enhance patient outcomes. This study introduces the Attention Diffusion Zero-shot Unsupervised System (ADZUS), a novel text-guided diffusion model that performs wound segmentation without relying on labeled training data. Unlike conventional deep learning models, which require extensive annotation, ADZUS leverages zero-shot learning to dynamically adapt segmentation based on descriptive prompts, offering enhanced flexibility and adaptability in clinical applications. Experimental evaluations demonstrate that ADZUS surpasses traditional and state-of-the-art segmentation models, achieving an IoU of 86.68\% and the highest precision of 94.69\% on the chronic wound dataset, outperforming supervised approaches such as FUSegNet. Further validation on a custom-curated DFU dataset reinforces its robustness, with ADZUS achieving a median DSC of 75\%, significantly surpassing FUSegNet’s 45\%. The model’s text-guided segmentation capability enables real-time customization of segmentation outputs, allowing targeted analysis of wound characteristics based on clinical descriptions. Despite its competitive performance, the computational cost of diffusion-based inference and the need for potential fine-tuning remain areas for future improvement. ADZUS represents a transformative step in wound segmentation, providing a scalable, efficient, and adaptable AI-driven solution for medical imaging.

arxiv情報

著者 Abderrachid Hamrani,Daniela Leizaola,Renato Sousa,Jose P. Ponce,Stanley Mathis,David G. Armstrong,Anuradha Godavarty
発行日 2025-04-24 14:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Beyond Labels: Zero-Shot Diabetic Foot Ulcer Wound Segmentation with Self-attention Diffusion Models and the Potential for Text-Guided Customization はコメントを受け付けていません

A Guide to Structureless Visual Localization

要約

視覚ローカリゼーションアルゴリズム、つまり、既知のシーンでクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張 /混合現実システムなど、多くのアプリケーションのコアコンポーネントです。
最先端の視覚的ローカリゼーションアルゴリズムは構造ベースです。つまり、シーンの3Dモデルを保存し、カメラポーズ推定のためにモデルのクエリ画像と3Dポイントの間に2D-3D対応を使用します。
このようなアプローチは非常に正確ですが、シーンの変更後に基礎となる3Dモデルを調整することに関しては、かなり柔軟性があります。
構造のないローカリゼーションアプローチは、既知のポーズを持つ画像のデータベースとしてシーンを表し、したがって、画像を追加または削除することで簡単に更新できるはるかに柔軟な表現を提供します。
構造ベースのアプローチに関する文献は大量にありますが、構造のない方法に関する作業は大幅に少ないです。
したがって、この論文は、私たちの知る限り、最初の包括的な議論と構造のない方法の比較を提供することに専念しています。
広範な実験では、より高い程度の古典的な幾何学的推論を使用するアプローチは、一般により高いポーズ精度を達成することが示されています。
特に、古典的な絶対的または半一般化された相対ポーズ推定に基づくアプローチは、広いマージンによるポーズ回帰に基づく非常に最近の方法よりも優れています。
最先端の構造ベースのアプローチと比較して、構造のない方法の柔軟性は、(わずかに)低いポーズ精度を犠牲にして生まれ、将来の作業の興味深い方向を示しています。

要約(オリジナル)

Visual localization algorithms, i.e., methods that estimate the camera pose of a query image in a known scene, are core components of many applications, including self-driving cars and augmented / mixed reality systems. State-of-the-art visual localization algorithms are structure-based, i.e., they store a 3D model of the scene and use 2D-3D correspondences between the query image and 3D points in the model for camera pose estimation. While such approaches are highly accurate, they are also rather inflexible when it comes to adjusting the underlying 3D model after changes in the scene. Structureless localization approaches represent the scene as a database of images with known poses and thus offer a much more flexible representation that can be easily updated by adding or removing images. Although there is a large amount of literature on structure-based approaches, there is significantly less work on structureless methods. Hence, this paper is dedicated to providing the, to the best of our knowledge, first comprehensive discussion and comparison of structureless methods. Extensive experiments show that approaches that use a higher degree of classical geometric reasoning generally achieve higher pose accuracy. In particular, approaches based on classical absolute or semi-generalized relative pose estimation outperform very recent methods based on pose regression by a wide margin. Compared with state-of-the-art structure-based approaches, the flexibility of structureless methods comes at the cost of (slightly) lower pose accuracy, indicating an interesting direction for future work.

arxiv情報

著者 Vojtech Panek,Qunjie Zhou,Yaqing Ding,Sérgio Agostinho,Zuzana Kukelova,Torsten Sattler,Laura Leal-Taixé
発行日 2025-04-24 15:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | A Guide to Structureless Visual Localization はコメントを受け付けていません

CLIPSE — a minimalistic CLIP-based image search engine for research

要約

Clipseの簡単な概要、研究の主なアプリケーションを備えた自己ホストの画像検索エンジンが提供されています。
一般に、Clipseはクリップ埋め込みを使用して画像とテキストクエリを処理します。
全体的なフレームワークは、簡単な拡張と使用を可能にするためのシンプルで設計されています。
2つのベンチマークシナリオが説明および評価され、インデックスとクエリの時間をカバーします。
クリプスは、より小さなデータセットを処理できることが示されています。
より大きなデータセットの場合、いくつかのインスタンスを備えた分散アプローチを考慮する必要があります。

要約(オリジナル)

A brief overview of CLIPSE, a self-hosted image search engine with the main application of research, is provided. In general, CLIPSE uses CLIP embeddings to process the images and also the text queries. The overall framework is designed with simplicity to enable easy extension and usage. Two benchmark scenarios are described and evaluated, covering indexing and querying time. It is shown that CLIPSE is capable of handling smaller datasets; for larger datasets, a distributed approach with several instances should be considered.

arxiv情報

著者 Steve Göring
発行日 2025-04-24 15:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLIPSE — a minimalistic CLIP-based image search engine for research はコメントを受け付けていません

Aerial Image Classification in Scarce and Unconstrained Environments via Conformal Prediction

要約

このペーパーでは、制約のない環境での多様なイベントを特徴とする挑戦的な航空画像データセットに関するコンフォーマル予測方法の包括的な経験的分析を提示します。
Conformal Predictionは、分類器の出力を取得し、それを可能性のあるラベルのセットに変換する強力な事後手法であり、真のラベルのカバレッジに関する統計的保証を提供します。
標準ベンチマークの評価とは異なり、我々の調査では、データスカースと非常に可変的な実世界の設定の複雑さに対処しています。
限られたラベル付きデータを微調整して、有益な予測セットを生成するために、制限されたデータで微調整された、事前に守られたモデル(MobileNet、Densenet、およびResnet)を活用する有効性を調査します。
キャリブレーションの影響をさらに評価するために、2つの並列パイプライン(温度スケーリングの有無にかかわらず)を検討し、2つの重要なメトリックを使用してパフォーマンスを評価します。経験的カバレッジと平均予測セットサイズです。
このセットアップにより、キャリブレーションの選択が信頼性と効率のトレードオフにどのように影響するかを体系的に調べることができます。
私たちの調査結果は、比較的小さなラベル付きサンプルと単純な不適合スコアがあっても、コンフォーマル予測が複雑なタスクの貴重な不確実性の推定値をもたらす可能性があることを示しています。
さらに、私たちの分析により、温度スケーリングはしばしばキャリブレーションに使用されますが、一貫して予測セットが小さくなるわけではなく、アプリケーションで慎重に検討することの重要性を強調していることが明らかになりました。
さらに、我々の結果は、リソース制約の環境での展開のためのコンフォーマル予測パイプライン内のモデル圧縮技術の重要な可能性を強調しています。
私たちの観察に基づいて、私たちは将来の研究を、コンフォーマル予測パフォーマンスに対する騒々しいまたは曖昧なラベルの影響を掘り下げ、効果的なモデル削減戦略を探求することを提唱しています。

要約(オリジナル)

This paper presents a comprehensive empirical analysis of conformal prediction methods on a challenging aerial image dataset featuring diverse events in unconstrained environments. Conformal prediction is a powerful post-hoc technique that takes the output of any classifier and transforms it into a set of likely labels, providing a statistical guarantee on the coverage of the true label. Unlike evaluations on standard benchmarks, our study addresses the complexities of data-scarce and highly variable real-world settings. We investigate the effectiveness of leveraging pretrained models (MobileNet, DenseNet, and ResNet), fine-tuned with limited labeled data, to generate informative prediction sets. To further evaluate the impact of calibration, we consider two parallel pipelines (with and without temperature scaling) and assess performance using two key metrics: empirical coverage and average prediction set size. This setup allows us to systematically examine how calibration choices influence the trade-off between reliability and efficiency. Our findings demonstrate that even with relatively small labeled samples and simple nonconformity scores, conformal prediction can yield valuable uncertainty estimates for complex tasks. Moreover, our analysis reveals that while temperature scaling is often employed for calibration, it does not consistently lead to smaller prediction sets, underscoring the importance of careful consideration in its application. Furthermore, our results highlight the significant potential of model compression techniques within the conformal prediction pipeline for deployment in resource-constrained environments. Based on our observations, we advocate for future research to delve into the impact of noisy or ambiguous labels on conformal prediction performance and to explore effective model reduction strategies.

arxiv情報

著者 Farhad Pourkamali-Anaraki
発行日 2025-04-24 15:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Aerial Image Classification in Scarce and Unconstrained Environments via Conformal Prediction はコメントを受け付けていません

DiMeR: Disentangled Mesh Reconstruction Model

要約

大規模な3Dデータセットの出現により、大規模な再建モデル(LRM)などのフィードフォワード3D生成モデルは、大きな注目を集め、顕著な成功を達成しました。
ただし、RGB画像はしばしば競合するトレーニング目標につながり、幾何学の再構築に必要な明確さを欠いていることがわかります。
この論文では、メッシュの再構成に関連する帰納的バイアスを再検討し、スパースビューメッシュ再構成のための新しい解きだめのデュアルストリームフィードフォワードモデルであるダイマーを導入します。
重要なアイデアは、入力とフレームワークの両方をジオメトリパーツとテクスチャパーツに解くことで、それにより、Occamのカミソリの原則に従って各部分のトレーニングの難易度を減らすことです。
通常のマップがジオメトリと厳密に一致し、表面の変動を正確にキャプチャしていることを考えると、通常のマップをジオメトリ分岐の排他的入力として利用して、ネットワークの入力と出力の複雑さを減らします。
さらに、メッシュ抽出アルゴリズムを改善して、3Dグラウンドトゥルースの監督を導入します。
テクスチャブランチについては、RGB画像を入力として使用して、テクスチャメッシュを取得します。
全体として、Dimerは、スパースビューの再構築、シングルイメージから3D、テキストから3Dなど、さまざまなタスクにわたって堅牢な機能を実証しています。
多数の実験により、ダイマーは以前の方法を大幅に上回り、GSOおよびOmniobject3Dデータセットの面取り距離で30%以上の改善を達成することが示されています。

要約(オリジナル)

With the advent of large-scale 3D datasets, feed-forward 3D generative models, such as the Large Reconstruction Model (LRM), have gained significant attention and achieved remarkable success. However, we observe that RGB images often lead to conflicting training objectives and lack the necessary clarity for geometry reconstruction. In this paper, we revisit the inductive biases associated with mesh reconstruction and introduce DiMeR, a novel disentangled dual-stream feed-forward model for sparse-view mesh reconstruction. The key idea is to disentangle both the input and framework into geometry and texture parts, thereby reducing the training difficulty for each part according to the Principle of Occam’s Razor. Given that normal maps are strictly consistent with geometry and accurately capture surface variations, we utilize normal maps as exclusive input for the geometry branch to reduce the complexity between the network’s input and output. Moreover, we improve the mesh extraction algorithm to introduce 3D ground truth supervision. As for texture branch, we use RGB images as input to obtain the textured mesh. Overall, DiMeR demonstrates robust capabilities across various tasks, including sparse-view reconstruction, single-image-to-3D, and text-to-3D. Numerous experiments show that DiMeR significantly outperforms previous methods, achieving over 30% improvement in Chamfer Distance on the GSO and OmniObject3D dataset.

arxiv情報

著者 Lutao Jiang,Jiantao Lin,Kanghao Chen,Wenhang Ge,Xin Yang,Yifan Jiang,Yuanhuiyi Lyu,Xu Zheng,Yingcong Chen
発行日 2025-04-24 15:39:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiMeR: Disentangled Mesh Reconstruction Model はコメントを受け付けていません

Variational Self-Supervised Learning

要約

さまざまな自己監視学習(VSSL)を提示します。これは、変動的推論と自己監視学習を組み合わせて、効率的でデコーダーフリーの表​​現学習を可能にするための新しいフレームワークです。
デコーダーを介して入力再構成に依存する従来のvaesとは異なり、VSSLは2つのエンコーダーをガウス出力と対称的に結合します。
モメンタムアップデートされたティーチャーネットワークは、動的でデータ依存性の事前を定義しますが、学生エンコーダーは拡張ビューからおおよその後方を生成します。
エルボの再建項は、ガウスKL発散の分析的扱いやすさを維持するクロスビュー除去目標に置き換えられます。
さらに、高次元の潜在スペースでのセマンティックアライメントを強化するために、KLおよび対数尤度用語のコサインベースの製剤を導入します。
CIFAR-10、CIFAR-100、およびImagenet-100の実験は、VSSLがBYOLやMoCo V3を含む主要な自己監視方法に対して競争力のあるまたは優れたパフォーマンスを達成することを示しています。
VSSLは、生成的再構成なしに転送可能な表現を学習するためのスケーラブルな確率的に根拠のあるアプローチを提供し、変分モデリングと現代の自己監視技術の間のギャップを埋めます。

要約(オリジナル)

We present Variational Self-Supervised Learning (VSSL), a novel framework that combines variational inference with self-supervised learning to enable efficient, decoder-free representation learning. Unlike traditional VAEs that rely on input reconstruction via a decoder, VSSL symmetrically couples two encoders with Gaussian outputs. A momentum-updated teacher network defines a dynamic, data-dependent prior, while the student encoder produces an approximate posterior from augmented views. The reconstruction term in the ELBO is replaced with a cross-view denoising objective, preserving the analytical tractability of Gaussian KL divergence. We further introduce cosine-based formulations of KL and log-likelihood terms to enhance semantic alignment in high-dimensional latent spaces. Experiments on CIFAR-10, CIFAR-100, and ImageNet-100 show that VSSL achieves competitive or superior performance to leading self-supervised methods, including BYOL and MoCo V3. VSSL offers a scalable, probabilistically grounded approach to learning transferable representations without generative reconstruction, bridging the gap between variational modeling and modern self-supervised techniques.

arxiv情報

著者 Mehmet Can Yavuz,Berrin Yanikoglu
発行日 2025-04-24 15:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Variational Self-Supervised Learning はコメントを受け付けていません

ARF-Plus: Controlling Perceptual Factors in Artistic Radiance Fields for 3D Scene Stylization

要約

Radiance Fields Style Transferは、3D再構成とビュー合成における神経放射界の顕著なパフォーマンスのおかげで、最近3Dシーンスタイリゼーションの手段として人気を獲得した新興分野です。
2D画像スタイルの転送の既存の概念によって動機付けられた、ラディアンスフィールドスタイルの転送の研究ギャップ、十分な知覚的制御性の欠如を強調します。
このホワイトペーパーでは、3Dシーンスタイリライゼーションの知覚的制御性を体系的に調査するために、知覚要因を管理しやすい制御を提供する3Dニューラルスタイルの転送フレームワークであるARF-PLUSを提示します。
4つの異なるタイプのコントロール – カラー保存制御、(スタイルパターン)スケール制御、空間(選択的スタイリライゼーション領域)制御、および深度強化制御 – が提案され、このフレームワークに統合されています。
定量的および定性的の両方の実際のデータセットの結果は、3Dシーンをスタイライズするときに、ARF-PLUSフレームワークの4種類のコントロールが対応する知覚コントロールを正常に達成することを示しています。
これらの手法は、個々のスタイルの入力と、シーン内の複数のスタイルを同時に適用するために有効です。
これにより、無限の可能性の領域が解き放たれ、スタイリライゼーション効果のカスタマイズされた変更とさまざまなスタイルの強度の柔軟なマージを可能にし、最終的には3Dシーンで斬新で人目を引くスタイル効果の作成を可能にします。

要約(オリジナル)

The radiance fields style transfer is an emerging field that has recently gained popularity as a means of 3D scene stylization, thanks to the outstanding performance of neural radiance fields in 3D reconstruction and view synthesis. We highlight a research gap in radiance fields style transfer, the lack of sufficient perceptual controllability, motivated by the existing concept in the 2D image style transfer. In this paper, we present ARF-Plus, a 3D neural style transfer framework offering manageable control over perceptual factors, to systematically explore the perceptual controllability in 3D scene stylization. Four distinct types of controls – color preservation control, (style pattern) scale control, spatial (selective stylization area) control, and depth enhancement control – are proposed and integrated into this framework. Results from real-world datasets, both quantitative and qualitative, show that the four types of controls in our ARF-Plus framework successfully accomplish their corresponding perceptual controls when stylizing 3D scenes. These techniques work well for individual style inputs as well as for the simultaneous application of multiple styles within a scene. This unlocks a realm of limitless possibilities, allowing customized modifications of stylization effects and flexible merging of the strengths of different styles, ultimately enabling the creation of novel and eye-catching stylistic effects on 3D scenes.

arxiv情報

著者 Wenzhao Li,Tianhao Wu,Fangcheng Zhong,Cengiz Oztireli
発行日 2025-04-24 15:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | ARF-Plus: Controlling Perceptual Factors in Artistic Radiance Fields for 3D Scene Stylization はコメントを受け付けていません

Contrastive Learning with Synthetic Positives

要約

最も近い隣人との対照学習は、同じクラス内の複数のインスタンスの類似性を利用することにより、最も効率的な自己監視学習(SSL)技術の1つであることが証明されています。
ただし、最近隣接するアルゴリズムが主に「簡単な」ポジティブペアを識別するため、その有効性は制約されています。このペアでは、表現はすでに埋め込みスペースに密接に位置しています。
この論文では、モデルが多様な陽性から学習するのを助ける追加の陽性として、無条件の拡散モデルによって生成される合成画像を利用する合成陽性(CLSP)を使用したコントラスト学習(CLSP)と呼ばれる新しいアプローチを紹介します。
拡散モデルサンプリングプロセスの特徴補間により、異なる背景を持つ画像を生成しますが、アンカー画像と同様のセマンティックコンテンツが生成されます。
これらの画像は、アンカー画像の「ハード」ポジティブと見なされ、対照的な損失に補足的なポジティブとして含まれる場合、CIFAR10などの複数のベンチマークデータセットにわたって以前のNNCLRおよびALL4ONEメソッド、最先端の方法を達成するのと比較して、線形評価のパフォーマンス改善に貢献します。
転送学習ベンチマークでは、CLSPは8つのダウンストリームデータセットのうち6つで既存のSSLフレームワークを上回ります。
CLSPは、トレーニングプロセスに合成データを組み込んだ将来のSSL研究のための貴重なベースラインを確立すると考えています。

要約(オリジナル)

Contrastive learning with the nearest neighbor has proved to be one of the most efficient self-supervised learning (SSL) techniques by utilizing the similarity of multiple instances within the same class. However, its efficacy is constrained as the nearest neighbor algorithm primarily identifies ‘easy’ positive pairs, where the representations are already closely located in the embedding space. In this paper, we introduce a novel approach called Contrastive Learning with Synthetic Positives (CLSP) that utilizes synthetic images, generated by an unconditional diffusion model, as the additional positives to help the model learn from diverse positives. Through feature interpolation in the diffusion model sampling process, we generate images with distinct backgrounds yet similar semantic content to the anchor image. These images are considered ‘hard’ positives for the anchor image, and when included as supplementary positives in the contrastive loss, they contribute to a performance improvement of over 2% and 1% in linear evaluation compared to the previous NNCLR and All4One methods across multiple benchmark datasets such as CIFAR10, achieving state-of-the-art methods. On transfer learning benchmarks, CLSP outperforms existing SSL frameworks on 6 out of 8 downstream datasets. We believe CLSP establishes a valuable baseline for future SSL studies incorporating synthetic data in the training process.

arxiv情報

著者 Dewen Zeng,Yawen Wu,Xinrong Hu,Xiaowei Xu,Yiyu Shi
発行日 2025-04-24 16:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Contrastive Learning with Synthetic Positives はコメントを受け付けていません