Hyperbolic Contrastive Learning for Visual Representations beyond Objects

要約

自己/教師なしの方法は、視覚表現学習の急速な進歩をもたらしましたが、これらの方法は一般に、同じレンズを使用してオブジェクトとシーンを扱います。
この論文では、それらの間の構造を保持するオブジェクトとシーンの表現の学習に焦点を当てています。
視覚的に類似したオブジェクトが表現空間で近くにあるという観察に動機付けられて、シーンとオブジェクトは代わりに構成に基づいた階層構造に従うべきであると主張します。
このような構造を活用するために、ユークリッド損失を使用してオブジェクト表現を学習し、双曲線損失を使用してシーンの表現が双曲線空間内の構成オブジェクトの表現の近くにあるようにする、対照的な学習フレームワークを提案します。
この新しい双曲線の目的は、ノルムの大きさを最適化することにより、表現間のシーンオブジェクトハイパーニミーを促進します。
COCO および OpenImages データセットで事前トレーニングを行うと、双曲線損失により、画像分類、オブジェクト検出、セマンティック セグメンテーションなど、複数のデータセットとタスクにわたる複数のベースラインのダウンストリーム パフォーマンスが向上することがわかります。
また、学習した表現のプロパティにより、シーンとオブジェクト間の相互作用を含むさまざまな視覚タスクをゼロショット方式で解決できることも示します。
コードは \url{https://github.com/shlokk/HCL/tree/main/HCL} にあります。

要約(オリジナル)

Although self-/un-supervised methods have led to rapid progress in visual representation learning, these methods generally treat objects and scenes using the same lens. In this paper, we focus on learning representations for objects and scenes that preserve the structure among them. Motivated by the observation that visually similar objects are close in the representation space, we argue that the scenes and objects should instead follow a hierarchical structure based on their compositionality. To exploit such a structure, we propose a contrastive learning framework where a Euclidean loss is used to learn object representations and a hyperbolic loss is used to encourage representations of scenes to lie close to representations of their constituent objects in a hyperbolic space. This novel hyperbolic objective encourages the scene-object hypernymy among the representations by optimizing the magnitude of their norms. We show that when pretraining on the COCO and OpenImages datasets, the hyperbolic loss improves downstream performance of several baselines across multiple datasets and tasks, including image classification, object detection, and semantic segmentation. We also show that the properties of the learned representations allow us to solve various vision tasks that involve the interaction between scenes and objects in a zero-shot fashion. Our code can be found at \url{https://github.com/shlokk/HCL/tree/main/HCL}.

arxiv情報

著者 Songwei Ge,Shlok Mishra,Simon Kornblith,Chun-Liang Li,David Jacobs
発行日 2022-12-01 16:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク