Large-to-small Image Resolution Asymmetry in Deep Metric Learning

要約

ビジョンのディープ メトリック学習は、表現ネットワークを最適化して (非) 一致する画像ペアを (非) 類似の表現にマッピングすることによってトレーニングされます。
通常は画像検索に対応するテスト中に、データベースとクエリの両方の例が同じネットワークによって処理され、類似性の推定とランキングに使用される表現が取得されます。
この作業では、高速な表現抽出を可能にするために、小さな画像解像度でクエリを軽量処理することにより、非対称セットアップを調査します。
目標は、高解像度の画像で動作するようにトレーニングされ、きめの細かい画像の詳細から恩恵を受けるデータベースの例のネットワークと、低解像度の画像で動作するが、それと一致する表現空間を保持するクエリの例の 2 番目のネットワークを取得することです。
データベースネットワーク。
これは、画像ごとに機能し、ラベルを使用せずに結合された拡張のみに依存する損失を介して、固定された教師ネットワークから生徒に知識を転送する蒸留アプローチで実現します。
異なるネットワーク アーキテクチャの観点からこのような非対称性を調査する以前の作業とは対照的に、この作業は同じアーキテクチャを使用しますが、画像の解像度を変更します。
解像度の非対称性は、アーキテクチャの非対称性よりもパフォーマンスと効率のトレードオフを最適化するための優れた方法であると結論付けています。
評価は、CUB200、Cars196、および SOP という 3 つの標準的なディープ メトリック ラーニング ベンチマークで実行されます。
コード: https://github.com/pavelsuma/raml

要約(オリジナル)

Deep metric learning for vision is trained by optimizing a representation network to map (non-)matching image pairs to (non-)similar representations. During testing, which typically corresponds to image retrieval, both database and query examples are processed by the same network to obtain the representation used for similarity estimation and ranking. In this work, we explore an asymmetric setup by light-weight processing of the query at a small image resolution to enable fast representation extraction. The goal is to obtain a network for database examples that is trained to operate on large resolution images and benefits from fine-grained image details, and a second network for query examples that operates on small resolution images but preserves a representation space aligned with that of the database network. We achieve this with a distillation approach that transfers knowledge from a fixed teacher network to a student via a loss that operates per image and solely relies on coupled augmentations without the use of any labels. In contrast to prior work that explores such asymmetry from the point of view of different network architectures, this work uses the same architecture but modifies the image resolution. We conclude that resolution asymmetry is a better way to optimize the performance/efficiency trade-off than architecture asymmetry. Evaluation is performed on three standard deep metric learning benchmarks, namely CUB200, Cars196, and SOP. Code: https://github.com/pavelsuma/raml

arxiv情報

著者 Pavel Suma,Giorgos Tolias
発行日 2022-10-11 14:05:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク