OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data

要約

オンライン ショッピングと電子商取引の容赦ない成長には、顧客の要件に対応するスケーラブルで堅牢な機械学習ベースのソリューションが必要です。
自動タグ付け分類とマルチモーダル検索のコンテキストでは、これまでの研究では、一般化性の低い教師あり学習アプローチか、より再利用可能な CLIP ベースの手法を定義していましたが、クローズド ソース データをトレーニングしていました。
この研究では、さまざまな領域から派生し、さまざまな程度の特異性を特徴とするオープンソースのファッション データのみを採用する視覚と言語の対照的な学習方法である OpenFashionCLIP を提案します。
私たちのアプローチは、いくつかのタスクとベンチマークにわたって広範囲に検証されており、実験結果は、精度と再現率の両方の点で、ドメイン外の汎化機能が大幅に向上し、最先端の手法よりも一貫して改善されていることを強調しています。
ソース コードとトレーニング済みモデルは、https://github.com/aimagelab/open-fashion-clip で公開されています。

要約(オリジナル)

The inexorable growth of online shopping and e-commerce demands scalable and robust machine learning-based solutions to accommodate customer requirements. In the context of automatic tagging classification and multimodal retrieval, prior works either defined a low generalizable supervised learning approach or more reusable CLIP-based techniques while, however, training on closed source data. In this work, we propose OpenFashionCLIP, a vision-and-language contrastive learning method that only adopts open-source fashion data stemming from diverse domains, and characterized by varying degrees of specificity. Our approach is extensively validated across several tasks and benchmarks, and experimental results highlight a significant out-of-domain generalization capability and consistent improvements over state-of-the-art methods both in terms of accuracy and recall. Source code and trained models are publicly available at: https://github.com/aimagelab/open-fashion-clip.

arxiv情報

著者 Giuseppe Cartella,Alberto Baldrati,Davide Morelli,Marcella Cornia,Marco Bertini,Rita Cucchiara
発行日 2023-09-11 15:36:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク