Learning Efficient Coding of Natural Images with Maximum Manifold Capacity Representations

要約

自己教師あり学習(Self-supervised Learning: SSL)は、手書きラベルに頼ることなく、画像の有用な表現を構築するための戦略である。このような方法の多くは、同じシーンやオブジェクトの異なるビューを表現空間の近くの点にマッピングすることを目的としており、表現崩壊を防ぐために何らかの制約を採用している。ここでは、この問題を効率的な符号化の観点から捉え直し、最適化する効率的な指標として、表現がサポートできる線形分離可能なオブジェクト多様体の数に基づいて表現の質を定量化する指標である多様体容量を採用する。具体的には、マニホールド容量を対比学習の枠組みの目的関数として利用し、最大マニホールド容量表現(MMCR)を得る。この方法をラベルのない画像に適用し、それぞれを基本的な変換のセットで補強したところ、標準的な線形評価プロトコルで意味のある特徴を学習することがわかった。特に、MMCRは、最近開発されたSSLフレームワークと同等かそれ以上の物体認識性能をサポートする一方で、敵対的攻撃に対してより頑健であることを発見した。実証分析により、MMCRと他のSSLフレームワークで学習された表現との違いを明らかにし、多様体圧縮がクラス分離性をもたらすメカニズムを示唆する。

要約(オリジナル)

Self-supervised Learning (SSL) provides a strategy for constructing useful representations of images without relying on hand-assigned labels. Many such methods aim to map distinct views of the same scene or object to nearby points in the representation space, while employing some constraint to prevent representational collapse. Here we recast the problem in terms of efficient coding by adopting manifold capacity, a measure that quantifies the quality of a representation based on the number of linearly separable object manifolds it can support, as the efficiency metric to optimize. Specifically, we adapt the manifold capacity for use as an objective function in a contrastive learning framework, yielding a Maximum Manifold Capacity Representation (MMCR). We apply this method to unlabeled images, each augmented by a set of basic transformations, and find that it learns meaningful features using the standard linear evaluation protocol. Specifically, we find that MMCRs support performance on object recognition comparable to or surpassing that of recently developed SSL frameworks, while providing more robustness to adversarial attacks. Empirical analyses reveal differences between MMCRs and representations learned by other SSL frameworks, and suggest a mechanism by which manifold compression gives rise to class separability.

arxiv情報

著者 Thomas Yerxa,Yilun Kuang,Eero Simoncelli,SueYeon Chung
発行日 2023-03-06 17:26:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, q-bio.NC パーマリンク