Self-supervised Learning of Contextualized Local Visual Embeddings

要約

我々は、高密度の予測タスクに適した表現を学習する、自己教師付き畳み込みベースの手法であるContextualized Local Visual Embeddings (CLoVE)を発表する。CLoVEは現在の手法から逸脱し、畳み込みニューラルネットワーク(CNN)エンコーダの出力特徴マップから学習された文脈化局所埋め込みレベルで動作する単一の損失関数を最適化する。文脈化された埋め込みを学習するために、CLoVEは画像の異なる部分からの局所特徴を類似性に基づいて結合する正規化マルチヘッド自己注意層を提案する。CLoVEの事前学習された表現について、複数のデータセットで広範なベンチマークを行った。CLoVEは、物体検出、インスタンス分割、キーポイント検出、密なポーズ推定を含む4つの密な予測下流タスクにおいて、CNNベースのアーキテクチャとしては最先端の性能を達成した。コードhref{https://github.com/sthalles/CLoVE}{text{https://github.com/sthalles/CLoVE}}$。

要約(オリジナル)

We present Contextualized Local Visual Embeddings (CLoVE), a self-supervised convolutional-based method that learns representations suited for dense prediction tasks. CLoVE deviates from current methods and optimizes a single loss function that operates at the level of contextualized local embeddings learned from output feature maps of convolution neural network (CNN) encoders. To learn contextualized embeddings, CLoVE proposes a normalized mult-head self-attention layer that combines local features from different parts of an image based on similarity. We extensively benchmark CLoVE’s pre-trained representations on multiple datasets. CLoVE reaches state-of-the-art performance for CNN-based architectures in 4 dense prediction downstream tasks, including object detection, instance segmentation, keypoint detection, and dense pose estimation. Code: $\href{https://github.com/sthalles/CLoVE}{\text{https://github.com/sthalles/CLoVE}}$.

arxiv情報

著者 Thalles Santos Silva,Helio Pedrini,Adín Ramírez Rivera
発行日 2023-10-03 16:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, I.4.6 パーマリンク