Transformers and CNNs both Beat Humans on SBIR

要約

スケッチベースの画像検索 (SBIR) は、手書きスケッチ クエリのセマンティクスと空間構成に一致する自然な画像 (写真) を検索するタスクです。
スケッチの普遍性により、可能なアプリケーションの範囲が広がり、効率的な SBIR ソリューションの需要が高まります。
このホワイト ペーパーでは、古典的なトリプレット ベースの SBIR ソリューションを研究し、(モデルの微調整後でも) 水平方向の反転に対する永続的な不変性がパフォーマンスに悪影響を及ぼしていることを示します。
この制限を克服するために、いくつかのアプローチを提案し、それぞれを詳細に評価してその有効性を確認します。
私たちの主な貢献は 2 つあります。より優れたフリップ等価性を持つ SBIR ソリューションを構築するために、いくつかの直感的な修正を提案して評価します。
ビジョン トランスフォーマーは SBIR タスクにより適していること、および大きなマージンで CNN よりも優れていることを示します。
私たちは数多くの実験を行い、大規模な SBIR ベンチマーク (Sketchy) で人間のパフォーマンスを上回る最初のモデルを紹介しました。
私たちの最良のモデルは、大ざっぱなベンチマークで 62.25% (k = 1 で) の再現率を達成しましたが、以前の最先端の方法では 46.2% でした。

要約(オリジナル)

Sketch-based image retrieval (SBIR) is the task of retrieving natural images (photos) that match the semantics and the spatial configuration of hand-drawn sketch queries. The universality of sketches extends the scope of possible applications and increases the demand for efficient SBIR solutions. In this paper, we study classic triplet-based SBIR solutions and show that a persistent invariance to horizontal flip (even after model finetuning) is harming performance. To overcome this limitation, we propose several approaches and evaluate in depth each of them to check their effectiveness. Our main contributions are twofold: We propose and evaluate several intuitive modifications to build SBIR solutions with better flip equivariance. We show that vision transformers are more suited for the SBIR task, and that they outperform CNNs with a large margin. We carried out numerous experiments and introduce the first models to outperform human performance on a large-scale SBIR benchmark (Sketchy). Our best model achieves a recall of 62.25% (at k = 1) on the sketchy benchmark compared to previous state-of-the-art methods 46.2%.

arxiv情報

著者 Omar Seddati,Stéphane Dupont,Saïd Mahmoudi,Thierry Dutoit
発行日 2022-09-14 13:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, I.2.10 パーマリンク