要約
自己教師あり学習は、表現学習やさまざまな下流のコンピューター ビジョン タスクにおいて優れたパフォーマンスを発揮することでよく知られています。
最近、Positive-pair-Only Contrastive Learning (POCL) は、ポジティブ-ネガティブ トレーニング セットを構築する必要がなく、信頼性の高いパフォーマンスを達成しました。
バッチ サイズへの依存性を軽減することで、メモリ要件を削減します。
POCL 法は通常、単一の損失関数を使用して、さまざまな歪みの影響を受ける正のペア表現の近接性を記述する歪み不変表現 (DIR) を抽出します。
この損失関数により、モデルはさまざまな歪みの影響を受ける歪みバリアント表現 (DVR) をフィルタリングして除外したり、無視したりすることが暗黙的に可能になります。
ただし、既存の POCL 方法は、実際に価値のある DVR のもつれの解除と活用を明示的に強制するものではありません。
さらに、これらの POCL 手法は拡張戦略の影響を受けやすいことが観察されています。
これらの制限に対処するために、我々は、歪み解消対照学習 (DDCL) および歪み解消損失 (DDL) という名前の新しい POCL フレームワークを提案します。
私たちのアプローチは、モデルとフィーチャー ストリーム内の DVR を明示的に解きほぐして活用する初めてのアプローチで、全体的な表現利用効率、堅牢性、表現能力を向上させます。
実行された実験は、いくつかのベンチマーク データセットにおける収束、表現品質、堅牢性の点で、Barlow Twins や Simsiam よりも当社のフレームワークが優れていることを示しています。
要約(オリジナル)
Self-supervised learning is well known for its remarkable performance in representation learning and various downstream computer vision tasks. Recently, Positive-pair-Only Contrastive Learning (POCL) has achieved reliable performance without the need to construct positive-negative training sets. It reduces memory requirements by lessening the dependency on the batch size. The POCL method typically uses a single loss function to extract the distortion invariant representation (DIR) which describes the proximity of positive-pair representations affected by different distortions. This loss function implicitly enables the model to filter out or ignore the distortion variant representation (DVR) affected by different distortions. However, existing POCL methods do not explicitly enforce the disentanglement and exploitation of the actually valuable DVR. In addition, these POCL methods have been observed to be sensitive to augmentation strategies. To address these limitations, we propose a novel POCL framework named Distortion-Disentangled Contrastive Learning (DDCL) and a Distortion-Disentangled Loss (DDL). Our approach is the first to explicitly disentangle and exploit the DVR inside the model and feature stream to improve the overall representation utilization efficiency, robustness and representation ability. Experiments carried out demonstrate the superiority of our framework to Barlow Twins and Simsiam in terms of convergence, representation quality, and robustness on several benchmark datasets.
arxiv情報
著者 | Jinfeng Wang,Sifan Song,Jionglong Su,S. Kevin Zhou |
発行日 | 2023-12-08 06:50:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google