Unsupervised Cross-Domain Image Retrieval via Prototypical Optimal Transport

要約

教師なしクロスドメイン画像検索 (UCIR) は、ラベル付きデータに依存せずに、さまざまなドメインにわたって同じカテゴリを共有する画像を検索することを目的としています。
従来のアプローチでは通常、UCIR 問題を 2 つの異なるタスク、つまりドメイン内表現学習とクロスドメイン特徴量調整に分解していました。
しかし、これらの分離された戦略は、これらのタスク間の潜在的な相乗効果を見落としています。
この論文では、ドメイン内特徴表現学習とクロスドメイン アライメントを統一フレームワークに統合する、UCIR 向けに明示的に調整された新しい最適トランスポート定式化である ProtoOT を紹介します。
ProtoOT は、K-means クラスタリング手法の強みを活用して、UCIR に固有の分布の不均衡を効果的に管理します。
K-means を利用して初期プロトタイプを生成し、クラス周辺分布を近似することで、それに応じて Optimal Transport の制約を変更し、UCIR シナリオでのパフォーマンスを大幅に向上させます。
さらに、表現学習をさらに改善するために、ProtoOT フレームワークに対照学習を組み込みます。
これにより、同様のセマンティクスを持つ機能間のローカルなセマンティクスの一貫性が促進されると同時に、機能と一致しないプロトタイプ間の分離が明示的に強制されるため、グローバルな識別性が強化されます。
ProtoOT は、ベンチマーク データセット全体で、既存の最先端の手法を大幅に上回っています。
特に、DomainNet では、ProtoOT は 24.44% の平均 P@200 向上を達成し、Office-Home では 12.12% の P@15 向上を示しています。
コードは https://github.com/HCVLAB/ProtoOT で入手できます。

要約(オリジナル)

Unsupervised cross-domain image retrieval (UCIR) aims to retrieve images sharing the same category across diverse domains without relying on labeled data. Prior approaches have typically decomposed the UCIR problem into two distinct tasks: intra-domain representation learning and cross-domain feature alignment. However, these segregated strategies overlook the potential synergies between these tasks. This paper introduces ProtoOT, a novel Optimal Transport formulation explicitly tailored for UCIR, which integrates intra-domain feature representation learning and cross-domain alignment into a unified framework. ProtoOT leverages the strengths of the K-means clustering method to effectively manage distribution imbalances inherent in UCIR. By utilizing K-means for generating initial prototypes and approximating class marginal distributions, we modify the constraints in Optimal Transport accordingly, significantly enhancing its performance in UCIR scenarios. Furthermore, we incorporate contrastive learning into the ProtoOT framework to further improve representation learning. This encourages local semantic consistency among features with similar semantics, while also explicitly enforcing separation between features and unmatched prototypes, thereby enhancing global discriminativeness. ProtoOT surpasses existing state-of-the-art methods by a notable margin across benchmark datasets. Notably, on DomainNet, ProtoOT achieves an average P@200 enhancement of 24.44%, and on Office-Home, it demonstrates a P@15 improvement of 12.12%. Code is available at https://github.com/HCVLAB/ProtoOT.

arxiv情報

著者 Bin Li,Ye Shi,Qian Yu,Jingya Wang
発行日 2024-02-28 15:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク