要約
我々は、高密度予測タスクに適した表現を学習する自己教師あり畳み込みベースの手法である Contextualized Local Visual Embeddings (CLoVE) を紹介します。
CLoVE は現在の手法から逸脱し、畳み込みニューラル ネットワーク (CNN) エンコーダーの出力特徴マップから学習されたコンテキスト化されたローカル エンベディングのレベルで動作する単一の損失関数を最適化します。
コンテキスト化された埋め込みを学習するために、CLoVE は、類似性に基づいて画像のさまざまな部分の局所的な特徴を組み合わせる、正規化されたマルチヘッド セルフ アテンション レイヤーを提案します。
私たちは、複数のデータセット上で CLoVE の事前トレーニング済み表現を広範囲にベンチマークします。
CLoVE は、オブジェクト検出、インスタンス セグメンテーション、キーポイント検出、密ポーズ推定を含む 4 つの密予測ダウンストリーム タスクにおいて、CNN ベースのアーキテクチャの最先端のパフォーマンスに達します。
要約(オリジナル)
We present Contextualized Local Visual Embeddings (CLoVE), a self-supervised convolutional-based method that learns representations suited for dense prediction tasks. CLoVE deviates from current methods and optimizes a single loss function that operates at the level of contextualized local embeddings learned from output feature maps of convolution neural network (CNN) encoders. To learn contextualized embeddings, CLoVE proposes a normalized mult-head self-attention layer that combines local features from different parts of an image based on similarity. We extensively benchmark CLoVE’s pre-trained representations on multiple datasets. CLoVE reaches state-of-the-art performance for CNN-based architectures in 4 dense prediction downstream tasks, including object detection, instance segmentation, keypoint detection, and dense pose estimation.
arxiv情報
著者 | Thalles Santos Silva,Helio Pedrini,Adín Ramírez Rivera |
発行日 | 2023-10-04 09:05:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google