FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings


注目すべき問題は、ビジュアル モデルがロゴよりも特徴を捉えていることです。
新しいマルチモーダル大規模言語モデル (MLLM) は、視覚的理解とテキスト理解の両方において優れた能力を実証しています。
これに触発されて、私たちはアプローチ \textbf{FashionLOGO} を提案し、MLLM に製品画像に適切なテキストを生成するよう促す方法を検討します。これは、ビジュアル モデルでより優れたロゴの埋め込みを実現するのに役立ちます。
実世界のデータセットに対する広範な実験により、FashionLOGO が汎用的で堅牢なロゴ埋め込みを生成でき、すべてのベンチマークで最先端のパフォーマンスを達成できることが証明されました。


Logo embedding models convert the product logos in images into vectors, enabling their utilization for logo recognition and detection within e-commerce platforms. This facilitates the enforcement of intellectual property rights and enhances product search capabilities. However, current methods treat logo embedding as a purely visual problem. A noteworthy issue is that visual models capture features more than logos. Instead, we view this as a multimodal task, using text as auxiliary information to facilitate the visual model’s understanding of the logo. The emerging Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in both visual and textual understanding. Inspired by this, we propose an approach, \textbf{FashionLOGO}, to explore how to prompt MLLMs to generate appropriate text for product images, which can help visual models achieve better logo embeddings. We adopt a cross-attention transformer block that enables visual embedding to automatically learn supplementary knowledge from textual embedding. Our extensive experiments on real-world datasets prove that FashionLOGO is capable of generating generic and robust logo embeddings, achieving state-of-the-art performance in all benchmarks.


著者 Zhen Wang,Da Li,Yulin Su,Min Yang,Minghui Qiu,Walton Wang
発行日 2024-09-09 14:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク