On Background Bias in Deep Metric Learning

要約

Deep Metric Learningは、入力画像を低次元の埋め込み空間に対応付け、類似画像が非類似画像よりも近くなるようにニューラルネットワークを学習させる。アイテム検索に利用する場合、クエリ画像を学習したモデルを使って埋め込み、それぞれの埋め込みを格納したデータベースから、クエリに最も近いアイテムを返す。特に商品検索では、ユーザがある商品を撮影して検索するため、通常、画像の背景は重要ではなく、したがって埋め込み処理に影響を与えないようにする必要がある。理想的には、撮影された環境に関わらず、常に撮影対象に対して適合する商品を検索結果として返すことが望ましい。本論文では、5つの一般的な損失関数と3つの一般的なデータセットを用いて、ディープメトリックラーニングモデルにおける画像背景の影響を分析する。その結果、Deep Metric Learningのネットワークはいわゆる背景バイアスを起こしやすく、推論中に画像の背景を変更すると検索性能が著しく低下することが分かった。また、学習中の画像の背景をランダムな背景画像に置き換えることで、この問題が緩和されることを示す。この背景置換には自動背景除去手法を用いるため、推論時間はそのままに、手動でのラベリング作業やモデルの変更を追加する必要がない。また、新しい評価指標を導入した定性的・定量的解析により、背景を置換して学習したモデルは画像中の主な対象により多く注目し、項目検索システムに有利であることが確認された。

要約(オリジナル)

Deep Metric Learning trains a neural network to map input images to a lower-dimensional embedding space such that similar images are closer together than dissimilar images. When used for item retrieval, a query image is embedded using the trained model and the closest items from a database storing their respective embeddings are returned as the most similar items for the query. Especially in product retrieval, where a user searches for a certain product by taking a photo of it, the image background is usually not important and thus should not influence the embedding process. Ideally, the retrieval process always returns fitting items for the photographed object, regardless of the environment the photo was taken in. In this paper, we analyze the influence of the image background on Deep Metric Learning models by utilizing five common loss functions and three common datasets. We find that Deep Metric Learning networks are prone to so-called background bias, which can lead to a severe decrease in retrieval performance when changing the image background during inference. We also show that replacing the background of images during training with random background images alleviates this issue. Since we use an automatic background removal method to do this background replacement, no additional manual labeling work and model changes are required while inference time stays the same. Qualitative and quantitative analyses, for which we introduce a new evaluation metric, confirm that models trained with replaced backgrounds attend more to the main object in the image, benefitting item retrieval systems.

arxiv情報

著者 Konstantin Kobs,Andreas Hotho
発行日 2022-10-04 13:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IR パーマリンク