要約
きめの細かいマルチラベル分類モデルは、ファッション属性の検出からブランド認識に至るまでの視覚ベースのラベル予測など、電子商取引で幅広い用途に使用できます。
現実世界でこれらの分類タスクの満足のいくパフォーマンスを達成するための 1 つの課題は、無関係なピクセルを含む野生の視覚的背景信号であり、モデルが混乱して関心領域に焦点を合わせ、特定の領域を予測することになります。
この論文では、チャネルごとの注意ベースのモデルを組み込んだ空間認識セマンティック機能を適用し、ローカリゼーション ガイダンスを活用してマルチラベル予測のモデル パフォーマンスを向上させる、汎用セマンティック埋め込みディープ ニューラル ネットワークを紹介します。
ベースラインアプローチと比較して、すべてのラベルにわたる AUC スコアに関して平均 15.27% の相対改善が観察されました。
中心的な実験とアブレーション研究には、Instagram ファッションアパレルの画像に対して実行されるマルチラベルのファッション属性分類が含まれます。
私たちのアプローチ、ベースライン アプローチ、およびセマンティック機能を活用する 3 つの代替アプローチの間でモデルのパフォーマンスを比較しました。
結果は、私たちのアプローチの良好なパフォーマンスを示しています。
要約(オリジナル)
Fine-grained multi-label classification models have broad applications in e-commerce, such as visual based label predictions ranging from fashion attribute detection to brand recognition. One challenge to achieve satisfactory performance for those classification tasks in real world is the wild visual background signal that contains irrelevant pixels which confuses model to focus onto the region of interest and make prediction upon the specific region. In this paper, we introduce a generic semantic-embedding deep neural network to apply the spatial awareness semantic feature incorporating a channel-wise attention based model to leverage the localization guidance to boost model performance for multi-label prediction. We observed an Avg.relative improvement of 15.27% in terms of AUC score across all labels compared to the baseline approach. Core experiment and ablation studies involve multi-label fashion attribute classification performed on Instagram fashion apparels’ image. We compared the model performances among our approach, baseline approach, and 3 alternative approaches to leverage semantic features. Results show favorable performance for our approach.
arxiv情報
著者 | Xin Shen,Xiaonan Zhao,Rui Luo |
発行日 | 2023-06-05 21:30:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google