VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

要約

ファッションの服装を美的に心地よいものと見なすためには、それらを構成する衣服は、スタイル、カテゴリー、色などの視覚的側面に関して互換性がある必要があります。
コンピュータビジョンディープラーニングモデルの出現と遍在に伴い、高品質のファッション衣装推奨システムを開発することを目的とした視覚的互換性検出のタスクへの関心も高まっています。
以前の作品では、視覚的な互換性を、衣服内のアイテムが完全に互換性がある、または完全に互換性がないと見なされる二項分類タスクとして定義されていました。
ただし、これは、ユーザーが独自の衣装を作成し、どの特定のアイテムが他の衣装と互換性がない可能性があるかを知る必要があるOutfitMakerアプリケーションには適用されません。
これに対処するために、2つのタスクに最適化されたVisual InCompatibility TransfORmer(VICTOR)を提案します:1)回帰としての全体的な互換性と2)不一致のアイテムの検出。
ImageNetで事前トレーニングされたモデルからの特徴抽出またはエンドツーエンドの微調整に依存する以前の作品とは異なり、ファッション画像のコンピュータービジョンニューラルネットワークを微調整するために、ファッション固有の対照的な言語画像の事前トレーニングを利用します。
さらに、Polyvoreの衣装ベンチマークに基づいて、部分的に不一致の衣装を生成し、VICTORのトレーニングに使用されるPolyvore-MISFITと呼ばれる新しいデータセットを作成します。
一連のアブレーションと比較分析により、提案されたアーキテクチャは、Polyvoreデータセットの現在の最先端技術と競合し、さらにはそれを上回り、インスタンスごとのフローティング操作を88%削減し、高性能と効率のバランスをとることができることが示されています。

要約(オリジナル)

In order to consider fashion outfits as aesthetically pleasing, the garments that constitute them need to be compatible in terms of visual aspects, such as style, category and color. With the advent and omnipresence of computer vision deep learning models, increased interest has also emerged for the task of visual compatibility detection with the aim to develop quality fashion outfit recommendation systems. Previous works have defined visual compatibility as a binary classification task with items in a garment being considered as fully compatible or fully incompatible. However, this is not applicable to Outfit Maker applications where users create their own outfits and need to know which specific items may be incompatible with the rest of the outfit. To address this, we propose the Visual InCompatibility TransfORmer (VICTOR) that is optimized for two tasks: 1) overall compatibility as regression and 2) the detection of mismatching items. Unlike previous works that either rely on feature extraction from ImageNet-pretrained models or by end-to-end fine tuning, we utilize fashion-specific contrastive language-image pre-training for fine tuning computer vision neural networks on fashion imagery. Moreover, we build upon the Polyvore outfit benchmark to generate partially mismatching outfits, creating a new dataset termed Polyvore-MISFITs, that is used to train VICTOR. A series of ablation and comparative analyses show that the proposed architecture can compete and even surpass the current state-of-the-art on Polyvore datasets while reducing the instance-wise floating operations by 88%, striking a balance between high performance and efficiency.

arxiv情報

著者 Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Ioannis Kompatsiaris
発行日 2022-07-27 11:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク