STIR: Siamese Transformer for Image Retrieval Postprocessing

要約

【タイトル】画像検索ポストプロセッシングのためのシャーロットのトランスフォーマーであるSTIR

【要約】
– 画像検索の現在のメトリック学習アプローチは、通常情報のある潜在表現の空間を学習することに基づいており、コサイン距離などの単純なアプローチがうまく機能する。
– 最新の最先端技術であるHypViTなどは、より複雑な埋め込み空間に移行して、より良い結果を生み出す可能性があるが、本番環境へのスケールは困難である。
– この研究では、まず、ハード負例採掘を伴うトリプレットロスに基づくより簡単なモデルを構築し、最先端レベルでのパフォーマンスを発揮するが、これらの欠点をはらまない。
– 2つ目に、STIRという画像検索ポストプロセッシングの新しい方法を紹介する。これは、複数のトップ出力を単一のフォワードパスで再順位付けする方法である。
– 以前提案された再順位付けTransformersとは異なり、STIRはグローバル/ローカル特徴抽出に依存せず、注目機構を使ってクエリ画像と検出候補をピクセルレベルで直接比較する。
– その結果、このアプローチは、標準の画像検索データセットであるStanford Online ProductsとDeepFashion In-shopでの新しい最先端を定義する。プログラムのソースコードはhttps://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/にリリースされ、アプローチの対話型デモはhttps://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/で提供されている。

要約(オリジナル)

Current metric learning approaches for image retrieval are usually based on learning a space of informative latent representations where simple approaches such as the cosine distance will work well. Recent state of the art methods such as HypViT move to more complex embedding spaces that may yield better results but are harder to scale to production environments. In this work, we first construct a simpler model based on triplet loss with hard negatives mining that performs at the state of the art level but does not have these drawbacks. Second, we introduce a novel approach for image retrieval postprocessing called Siamese Transformer for Image Retrieval (STIR) that reranks several top outputs in a single forward pass. Unlike previously proposed Reranking Transformers, STIR does not rely on global/local feature extraction and directly compares a query image and a retrieved candidate on pixel level with the usage of attention mechanism. The resulting approach defines a new state of the art on standard image retrieval datasets: Stanford Online Products and DeepFashion In-shop. We also release the source code at https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/ and an interactive demo of our approach at https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/

arxiv情報

著者 Aleksei Shabanov,Aleksei Tarasov,Sergey Nikolenko
発行日 2023-04-27 05:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.IR, H.3.3 パーマリンク