NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval

要約

クロスモーダル検索は、視覚データやテキストデータなど、さまざまなモダリティ間のセマンティックギャップを埋めることを目的としており、それらを横切る正確な検索を可能にします。
クロスモーダル表現を調整するクリップなどのモデルでの大幅な進歩にもかかわらず、持続的な課題が残っています。サンプルの小さなサブセット(ハブ)が最近隣接するように支配し、偏った表現と劣化した検索精度につながります。
既存の方法は、多くの場合、実際のシナリオでは実用的ではない可能性のある以前のデータ分布に依存して、事後正規化手法を通して覆いを緩和します。
この論文では、トレーニング中にハブネスを直接緩和し、近隣のハブの学習を効果的にバランスさせ、さまざまな種類の隣人の関係を適応的に調整する新しい方法を導入します。
私たちのアプローチは、ハブネスの問題を軽減するだけでなく、検索パフォーマンスを向上させ、複数のクロスモーダル検索ベンチマークで最先端の結果を達成します。
さらに、Neighborretrは、実質的な分布シフトを備えた新しいドメインへの堅牢な一般化を実証し、実際のアプリケーションにおけるその有効性を強調しています。
コードをhttps://github.com/zzezze/neighborretrで公開しています。

要約(オリジナル)

Cross-modal retrieval aims to bridge the semantic gap between different modalities, such as visual and textual data, enabling accurate retrieval across them. Despite significant advancements with models like CLIP that align cross-modal representations, a persistent challenge remains: the hubness problem, where a small subset of samples (hubs) dominate as nearest neighbors, leading to biased representations and degraded retrieval accuracy. Existing methods often mitigate hubness through post-hoc normalization techniques, relying on prior data distributions that may not be practical in real-world scenarios. In this paper, we directly mitigate hubness during training and introduce NeighborRetr, a novel method that effectively balances the learning of hubs and adaptively adjusts the relations of various kinds of neighbors. Our approach not only mitigates the hubness problem but also enhances retrieval performance, achieving state-of-the-art results on multiple cross-modal retrieval benchmarks. Furthermore, NeighborRetr demonstrates robust generalization to new domains with substantial distribution shifts, highlighting its effectiveness in real-world applications. We make our code publicly available at: https://github.com/zzezze/NeighborRetr .

arxiv情報

著者 Zengrong Lin,Zheng Wang,Tianwen Qian,Pan Mu,Sixian Chan,Cong Bai
発行日 2025-03-13 16:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク