Time to augment contrastive learning

要約

生物学的視覚システムは、監督なしで視覚表現を学習する能力において比類のないものです。
機械学習では、対照学習(CL)により、教師なし方法でのオブジェクト表現の形成が大幅に進歩しました。
これらのシステムは、トリミングや反転など、画像の拡張操作に対して不変の表現を学習します。
対照的に、生物学的視覚システムは、視覚体験の時間的構造を利用します。
これにより、同じオブジェクトを複数の視点から、または異なる背景に対して見るなど、CLでは一般的に使用されない拡張機能にアクセスできます。
ここでは、オブジェクトのカテゴリを学習するためのそのような時間ベースの拡張の潜在的な利点を体系的に調査して比較します。
私たちの結果は、時間ベースの拡張が最先端の画像拡張よりも大幅なパフォーマンスの向上を達成することを示しています。
具体的には、私たちの分析は次のことを明らかにしています。1)3Dオブジェクトの回転により、オブジェクトカテゴリの学習が大幅に向上します。
2)背景の変化に対してオブジェクトを表示することは、背景関連の情報を破棄することを学ぶために不可欠です。
全体として、時間ベースの増強は対照的な学習を大幅に改善し、人工視覚システムと生物学的視覚システムの間のギャップを狭めることができると結論付けています。

要約(オリジナル)

Biological vision systems are unparalleled in their ability to learn visual representations without supervision. In machine learning, contrastive learning (CL) has led to major advances in forming object representations in an unsupervised fashion. These systems learn representations invariant to augmentation operations over images, like cropping or flipping. In contrast, biological vision systems exploit the temporal structure of the visual experience. This gives access to augmentations not commonly used in CL, like watching the same object from multiple viewpoints or against different backgrounds. Here, we systematically investigate and compare the potential benefits of such time-based augmentations for learning object categories. Our results show that time-based augmentations achieve large performance gains over state-of-the-art image augmentations. Specifically, our analyses reveal that: 1) 3-D object rotations drastically improve the learning of object categories; 2) viewing objects against changing backgrounds is vital for learning to discard background-related information. Overall, we conclude that time-based augmentations can greatly improve contrastive learning, narrowing the gap between artificial and biological vision systems.

arxiv情報

著者 Arthur Aubret,Markus Ernst,Céline Teulière,Jochen Triesch
発行日 2022-07-27 12:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク