Training with Product Digital Twins for AutoRetail Checkout


スマート リテールでは、チェックアウト プロセスの自動化が重要です。スマート リテールでは、ユーザーが商品を手でカメラに簡単に渡し、自動商品検出、追跡、および計数がトリガーされます。
この新興分野では、注釈付きトレーニング データが不足しているため、製品 3D モデルで構成されるデータセットを導入します。これにより、グラフィック エンジン レンダリングを通じて、高速かつ柔軟で大規模なトレーニング データの生成が可能になります。
この文脈の中で、ユーザーの「実践的」アプローチにより、ユーザーの行動の偏りが実際のチェックアウト プロセスに明確なパターンをもたらすという興味深い側面を認識しました。
このようなパターンが存在すると、トレーニング データがそれを反映できなかった場合、トレーニングの有効性が損なわれる可能性があります。
このユーザーバイアスの問題に対処するために、トレーニング データ最適化フレームワーク、つまりデジタル ツインを使用したトレーニング (DtTrain) を提案します。
具体的には、製品の 3D モデルを活用し、そのレンダリング視点と照明を最適化して、代表的なユーザー画像に視覚的に似た「デジタル ツイン」を生成します。
これらのデジタル ツインは製品ラベルを継承し、拡張されるとデジタル ツイン トレーニング セット (DT セット) を形成します。
デジタル ツインは個別にユーザーのバイアスを模倣するため、結果として得られる DT トレーニング セットはターゲット シナリオの特性をよりよく反映し、より効果的な製品検出および追跡モデルをトレーニングできるようになります。
私たちの実験では、計数精度の点で、DT セットが既存のデータセット合成手法で作成されたトレーニング セットよりも優れていることを示しました。
さらに、DT セットを疑似ラベル付きの実際のチェックアウト データと組み合わせることにより、さらなる改善が観察されます。
コードは で入手できます。


Automating the checkout process is important in smart retail, where users effortlessly pass products by hand through a camera, triggering automatic product detection, tracking, and counting. In this emerging area, due to the lack of annotated training data, we introduce a dataset comprised of product 3D models, which allows for fast, flexible, and large-scale training data generation through graphic engine rendering. Within this context, we discern an intriguing facet, because of the user ‘hands-on’ approach, bias in user behavior leads to distinct patterns in the real checkout process. The existence of such patterns would compromise training effectiveness if training data fail to reflect the same. To address this user bias problem, we propose a training data optimization framework, i.e., training with digital twins (DtTrain). Specifically, we leverage the product 3D models and optimize their rendering viewpoint and illumination to generate ‘digital twins’ that visually resemble representative user images. These digital twins, inherit product labels and, when augmented, form the Digital Twin training set (DT set). Because the digital twins individually mimic user bias, the resulting DT training set better reflects the characteristics of the target scenario and allows us to train more effective product detection and tracking models. In our experiment, we show that DT set outperforms training sets created by existing dataset synthesis methods in terms of counting accuracy. Moreover, by combining DT set with pseudo-labeled real checkout data, further improvement is observed. The code is available at


著者 Yue Yao,Xinyu Tian,Zheng Tang,Sujit Biswas,Huan Lei,Tom Gedeon,Liang Zheng
発行日 2023-08-18 17:58:10+00:00
