Leveraging the Third Dimension in Contrastive Learning

要約

自己教師あり学習 (SSL) メソッドは、ラベルのないデータを操作して、下流のタスクに役立つ堅牢な表現を学習します。
ほとんどの SSL メソッドは、2D 画像のピクセル マップを変換することによって得られる拡張に依存しています。
これらの拡張は、生物学的視覚が没入型の 3 次元で時間的に連続した環境で行われるという事実と、低レベルの生物学的視覚が深度の手がかりに大きく依存しているという事実を無視しています。
事前トレーニング済みの最先端の単眼 RGB-to-depth モデル (\emph{Depth Prediction Transformer}、Ranftl et al., 2021) によって提供される信号を使用して、深度信号を
SSL フレームワーク。
まず、RGB+深度入力表現を使用して対照学習を評価します。
次に、深度信号を使用して、わずかに異なるカメラ位置から新しいビューを生成し、それによって対照学習用の 3D 拡張を生成します。
ImageNette (ImageNet の 10 クラスのサブセット)、ImageNet-100、および ImageNet-1k データセットを使用して、3 つの異なる SSL メソッド (BYOL、SimSiam、および SwAV) でこれら 2 つのアプローチを評価します。
深度信号を組み込むための両方のアプローチが、ベースライン SSL メソッドの堅牢性と一般化を改善することがわかりましたが、最初のアプローチ (深度チャネル連結を使用) の方が優れています。
たとえば、深度チャネルを追加した BYOL により、下流の分類精度が ImageNette で 85.3\% から 88.0\% に、ImageNet-C で 84.1\% から 87.0\% に向上します。

要約(オリジナル)

Self-Supervised Learning (SSL) methods operate on unlabeled data to learn robust representations useful for downstream tasks. Most SSL methods rely on augmentations obtained by transforming the 2D image pixel map. These augmentations ignore the fact that biological vision takes place in an immersive three-dimensional, temporally contiguous environment, and that low-level biological vision relies heavily on depth cues. Using a signal provided by a pretrained state-of-the-art monocular RGB-to-depth model (the \emph{Depth Prediction Transformer}, Ranftl et al., 2021), we explore two distinct approaches to incorporating depth signals into the SSL framework. First, we evaluate contrastive learning using an RGB+depth input representation. Second, we use the depth signal to generate novel views from slightly different camera positions, thereby producing a 3D augmentation for contrastive learning. We evaluate these two approaches on three different SSL methods — BYOL, SimSiam, and SwAV — using ImageNette (10 class subset of ImageNet), ImageNet-100 and ImageNet-1k datasets. We find that both approaches to incorporating depth signals improve the robustness and generalization of the baseline SSL methods, though the first approach (with depth-channel concatenation) is superior. For instance, BYOL with the additional depth channel leads to an increase in downstream classification accuracy from 85.3\% to 88.0\% on ImageNette and 84.1\% to 87.0\% on ImageNet-C.

arxiv情報

著者 Sumukh Aithal,Anirudh Goyal,Alex Lamb,Yoshua Bengio,Michael Mozer
発行日 2023-01-27 15:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク