Unposed: Unsupervised Pose Estimation based Product Image Recommendations

要約

商品画像は、e コマース Web サイトの商品詳細ページで顧客とやり取りする最も印象的な媒体です。
毎日何百万もの製品が Web ストア カタログに掲載されており、製品の一連の画像の高品質基準を維持することは、大規模な問題です。
製品をカテゴリ別にグループ化すると、衣料品は非常に大量かつ高速のカテゴリであるため、独自の注目に値します。
規模を考えると、画像セットの完全性を監視することは困難です。これは、消費者向けの製品を適切に詳細に説明するものであり、多くの場合、顧客体験の低下につながり、顧客離れにつながります。
これらの製品タイプの製品ページの画像の品質と完全性を監視し、改善を提案するために、欠落している製品の画像セットをスキャンするための人間のポーズ検出ベースの監視されていない方法を提案します。
教師なしアプローチは、バイアスに関係なく、製品とカテゴリに基づいて売り手に公正なアプローチを提案します。
まず、健全な画像セットを使用して、人気商品の参照画像セットを作成します。
次に、これらの理想的な製品セットから参照セットのクラスを形成するために、最も望ましいポーズにラベルを付ける画像のクラスターを作成します。
さらに、すべてのテスト製品について、必要なすべてのポーズ クラスの画像をスキャンします。
セットのポーズを参照し、欠落しているポーズを特定し、潜在的な影響の順に並べ替えます。
これらの不足しているポーズは、売り手がさらに充実した製品リスト画像を追加するために使用できます。
人気のあるオンライン Web ストアからデータを収集し、約 200 個の製品を手動で調査しました。その大部分には、少なくとも 1 つの重複した画像または欠落したバリアントがあり、3,000 個の製品 (約 20,000 個の画像) をサンプリングしました。そのかなりの割合で、多くの画像バリアントを追加する余地がありました。
画像のバリエーションが 2 倍以上ある高評価の製品と比較して、私たちのモデルが大規模に使用できる可能性があることを示しています。

要約(オリジナル)

Product images are the most impressing medium of customer interaction on the product detail pages of e-commerce websites. Millions of products are onboarded on to webstore catalogues daily and maintaining a high quality bar for a product’s set of images is a problem at scale. Grouping products by categories, clothing is a very high volume and high velocity category and thus deserves its own attention. Given the scale it is challenging to monitor the completeness of image set, which adequately details the product for the consumers, which in turn often leads to a poor customer experience and thus customer drop off. To supervise the quality and completeness of the images in the product pages for these product types and suggest improvements, we propose a Human Pose Detection based unsupervised method to scan the image set of a product for the missing ones. The unsupervised approach suggests a fair approach to sellers based on product and category irrespective of any biases. We first create a reference image set of popular products with wholesome imageset. Then we create clusters of images to label most desirable poses to form the classes for the reference set from these ideal products set. Further, for all test products we scan the images for all desired pose classes w.r.t. reference set poses, determine the missing ones and sort them in the order of potential impact. These missing poses can further be used by the sellers to add enriched product listing image. We gathered data from popular online webstore and surveyed ~200 products manually, a large fraction of which had at least 1 repeated image or missing variant, and sampled 3K products(~20K images) of which a significant proportion had scope for adding many image variants as compared to high rated products which had more than double image variants, indicating that our model can potentially be used on a large scale.

arxiv情報

著者 Saurabh Sharma,Faizan Ahemad
発行日 2023-01-19 05:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.m パーマリンク