Image Similarity using An Ensemble of Context-Sensitive Models

要約

画像の類似性は、コンピューター ビジョンにおいて広く研究されてきました。
近年、機械学習モデルは、従来の多変量メトリクスよりも多くのセマンティクスをエンコードできる能力を示しています。
ただし、意味的な類似性にラベルを付ける場合、一対の画像に数値スコアを割り当てることは非現実的であり、タスクの改善と比較が困難になります。
この研究では、A:R 対 B:R の形式でラベル付けされたデータに基づいて画像類似性モデルを構築および比較する、つまり画像 A が別の画像よりも参照画像 R に近いかどうかを判断する、より直感的なアプローチを紹介します。
B. アンサンブル モデルを使用して、画像空間 (R、A、B) でのスパース サンプリングとコンテキストベースのデータでトレーニングされたモデルのバイアスの課題に対処します。
私たちのテスト結果は、構築されたアンサンブル モデルが、最良の個別のコンテキスト依存モデルよりも最大 5% 優れたパフォーマンスを発揮することを示しています。
また、混合画像データや既存の深い埋め込み (CLIP や DINO など) を使用して直接微調整されたモデルよりも優れたパフォーマンスを示しました。
この研究は、適切なアンサンブル アプローチを使用して、スパース サンプリングによる制限を軽減する場合、コンテキスト ベースのラベル付けとモデル トレーニングが効果的であることを示しています。

要約(オリジナル)

Image similarity has been extensively studied in computer vision. In recent years, machine-learned models have shown their ability to encode more semantics than traditional multivariate metrics. However, in labelling semantic similarity, assigning a numerical score to a pair of images is impractical, making the improvement and comparisons on the task difficult. In this work, we present a more intuitive approach to build and compare image similarity models based on labelled data in the form of A:R vs B:R, i.e., determining if an image A is closer to a reference image R than another image B. We address the challenges of sparse sampling in the image space (R, A, B) and biases in the models trained with context-based data by using an ensemble model. Our testing results show that the ensemble model constructed performs ~5% better than the best individual context-sensitive models. They also performed better than the models that were directly fine-tuned using mixed imagery data as well as existing deep embeddings, e.g., CLIP and DINO. This work demonstrates that context-based labelling and model training can be effective when an appropriate ensemble approach is used to alleviate the limitation due to sparse sampling.

arxiv情報

著者 Zukang Liao,Min Chen
発行日 2024-09-10 13:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク