VICTOR: Visual Incompatibility Detection with Transformers and Fashion-specific contrastive pre-training

要約

ファッションの着こなしが美的であるとみなされるためには、それを構成する衣服がスタイル、カテゴリー、色などの視覚的側面において互換性があることが必要である。これまでの研究では、視覚的な互換性は、衣服内のアイテムが完全に互換性があるか、完全に互換性がないかの二値分類タスクとして定義されています。しかし、これは、ユーザが自分の服を作成するOutfit Makerアプリケーションには適用できず、どの特定のアイテムが他の服と互換性がない可能性があるかを知る必要があります。そこで、我々は2つのタスクに最適化されたVisual InCompatibility TransfORmer (VICTOR)を提案します。VICTORは、1)全体的な適合性の回帰、2)不一致のアイテムの検出、およびファッション画像に対するコンピュータビジョンのニューラルネットワークを微調整するためのファッションに特化した対照言語-画像の事前学習を利用する。VICTORの学習には、Polyvoreの服装ベンチマークを基に、部分的に不一致の服装を生成し、Polyvore-MISFITsと呼ばれる新しいデータセットを作成する。一連のアブレーションと比較分析の結果、提案アーキテクチャは、Polyvoreデータセットにおいて、インスタンス単位の浮動小数点演算を88%削減し、高性能と効率のバランスを取りながら、現在の最先端技術と競合し、さらに上回ることができることが示された。コードは、https://github.com/stevejpapad/Visual-InCompatibility-Transformer で公開しています。

要約(オリジナル)

For fashion outfits to be considered aesthetically pleasing, the garments that constitute them need to be compatible in terms of visual aspects, such as style, category and color. Previous works have defined visual compatibility as a binary classification task with items in a garment being considered as fully compatible or fully incompatible. However, this is not applicable to Outfit Maker applications where users create their own outfits and need to know which specific items may be incompatible with the rest of the outfit. To address this, we propose the Visual InCompatibility TransfORmer (VICTOR) that is optimized for two tasks: 1) overall compatibility as regression and 2) the detection of mismatching items and utilize fashion-specific contrastive language-image pre-training for fine tuning computer vision neural networks on fashion imagery. We build upon the Polyvore outfit benchmark to generate partially mismatching outfits, creating a new dataset termed Polyvore-MISFITs, that is used to train VICTOR. A series of ablation and comparative analyses show that the proposed architecture can compete and even surpass the current state-of-the-art on Polyvore datasets while reducing the instance-wise floating operations by 88%, striking a balance between high performance and efficiency. We release our code at https://github.com/stevejpapad/Visual-InCompatibility-Transformer

arxiv情報

著者 Stefanos-Iordanis Papadopoulos,Christos Koutlis,Symeon Papadopoulos,Ioannis Kompatsiaris
発行日 2022-09-08 06:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク