要約
ロゴ埋め込みモデルは、画像内の製品ロゴをベクトルに変換し、電子商取引プラットフォーム内でのロゴの認識および検出に利用できるようにします。
これにより、知的財産権の執行が容易になり、製品検索機能が強化されます。
ただし、現在の方法では、ロゴの埋め込みは純粋に視覚的な問題として扱われます。
注目すべき問題は、ビジュアル モデルがロゴよりも特徴を捉えていることです。
代わりに、これをマルチモーダルなタスクと見なし、視覚モデルによるロゴの理解を容易にする補助情報としてテキストを使用します。
新しいマルチモーダル大規模言語モデル (MLLM) は、視覚的理解とテキスト理解の両方において優れた能力を実証しています。
これに触発されて、私たちはアプローチ \textbf{FashionLOGO} を提案し、MLLM に製品画像に適切なテキストを生成するよう促す方法を検討します。これは、ビジュアル モデルでより優れたロゴの埋め込みを実現するのに役立ちます。
テキスト埋め込みから補足知識を自動的に学習するビジュアル埋め込みを可能にするクロスアテンショントランスフォーマーブロックを採用しています。
実世界のデータセットに対する広範な実験により、FashionLOGO が汎用的で堅牢なロゴ埋め込みを生成でき、すべてのベンチマークで最先端のパフォーマンスを達成できることが証明されました。
要約(オリジナル)
Logo embedding models convert the product logos in images into vectors, enabling their utilization for logo recognition and detection within e-commerce platforms. This facilitates the enforcement of intellectual property rights and enhances product search capabilities. However, current methods treat logo embedding as a purely visual problem. A noteworthy issue is that visual models capture features more than logos. Instead, we view this as a multimodal task, using text as auxiliary information to facilitate the visual model’s understanding of the logo. The emerging Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in both visual and textual understanding. Inspired by this, we propose an approach, \textbf{FashionLOGO}, to explore how to prompt MLLMs to generate appropriate text for product images, which can help visual models achieve better logo embeddings. We adopt a cross-attention transformer block that enables visual embedding to automatically learn supplementary knowledge from textual embedding. Our extensive experiments on real-world datasets prove that FashionLOGO is capable of generating generic and robust logo embeddings, achieving state-of-the-art performance in all benchmarks.
arxiv情報
著者 | Zhen Wang,Da Li,Yulin Su,Min Yang,Minghui Qiu,Walton Wang |
発行日 | 2024-09-09 14:42:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google