要約
ディープ メトリック ラーニング (DML) モデルは、特定の損失関数を使用した強力な表現と類似性に基づく測定に依存します。
プロキシベースの損失は、収束速度の点でペアベースの損失と比較して優れたパフォーマンスを示しています。
ただし、異なるクラスに割り当てられたプロキシは、最終的に埋め込み空間の近くに配置されるため、ポジティブなアイテムとネガティブなアイテムを区別するのが困難になる可能性があります。
あるいは、相関性が高く、モデルに冗長な情報が提供される可能性があります。
これらの問題に対処するために、プロキシにソフト直交性 (SO) 制約を導入する新しいアプローチを提案します。
この制約により、プロキシが可能な限り直交するようになり、埋め込み空間内での位置が制御されるようになります。
私たちのアプローチでは、Data-Efficient Image Transformer (DeiT) をエンコーダーとして活用し、DML 目標とともに画像からコンテキスト上の特徴を抽出します。
目的は、SO の正則化に伴うプロキシ アンカーの損失から構成されます。
私たちはカテゴリレベルの画像検索のための 4 つの公開ベンチマークでこの方法を評価し、包括的な実験結果とアブレーション研究によってその有効性を実証します。
私たちの評価は、私たちが提案するアプローチが最先端の方法よりも大幅に優れていることを示しています。
要約(オリジナル)
Deep Metric Learning (DML) models rely on strong representations and similarity-based measures with specific loss functions. Proxy-based losses have shown great performance compared to pair-based losses in terms of convergence speed. However, proxies that are assigned to different classes may end up being closely located in the embedding space and hence having a hard time to distinguish between positive and negative items. Alternatively, they may become highly correlated and hence provide redundant information with the model. To address these issues, we propose a novel approach that introduces Soft Orthogonality (SO) constraint on proxies. The constraint ensures the proxies to be as orthogonal as possible and hence control their positions in the embedding space. Our approach leverages Data-Efficient Image Transformer (DeiT) as an encoder to extract contextual features from images along with a DML objective. The objective is made of the Proxy Anchor loss along with the SO regularization. We evaluate our method on four public benchmarks for category-level image retrieval and demonstrate its effectiveness with comprehensive experimental results and ablation studies. Our evaluations demonstrate the superiority of our proposed approach over state-of-the-art methods by a significant margin.
arxiv情報
著者 | Farshad Saberi-Movahed,Mohammad K. Ebrahimpour,Farid Saberi-Movahed,Monireh Moshavash,Dorsa Rahmatian,Mahvash Mohazzebi,Mahdi Shariatzadeh,Mahdi Eftekhari |
発行日 | 2023-06-22 17:22:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google