A Benchmark Grocery Dataset of Realworld Point Clouds From Single View

要約

きめ細かい食料品物体認識は、自動チェックアウト、店内ロボットナビゲーション、視覚障害者向け支援技術などの幅広い用途に関わる重要なコンピュータビジョンの問題です。
食料品に関する既存のデータセットは主に 2D 画像です。
これらのデータセットでトレーニングされたモデルは、通常の 2D グリッドからの学習特徴に限定されます。
Kinect などのポータブル 3D センサーは携帯電話で一般的に利用可能でしたが、最近では LiDAR や TrueDepth などのセンサーが携帯電話に統合されています。
モバイル 3D センサーが利用できるようになったにもかかわらず、食料品店専用の実世界の大規模ベンチマーク 3D データセットは現在ありません。
さらに、既存の 3D データセットにはきめ細かい食料品カテゴリが不足しており、トレーニング サンプルも限られています。
さらに、従来の写真撮影と比較して対象物の周囲を歩き回ってデータを収集するため、データ収集が煩雑になります。
そこで、3DGrocery100 と呼ばれる大規模な食料品データセットを導入します。
これは 100 のクラスで構成され、合計 87,898 個の 3D 点群が 10,755 個の RGB-D シングルビュー画像から作成されます。
私たちは、6 つの最新の 3D 点群分類モデルに基づいてデータセットをベンチマークします。
さらに、少数ショットおよび継続的な学習点群分類タスクでデータセットのベンチマークも行います。
プロジェクトページ: https://bigdatavision.org/3DGrocery100/。

要約(オリジナル)

Fine-grained grocery object recognition is an important computer vision problem with broad applications in automatic checkout, in-store robotic navigation, and assistive technologies for the visually impaired. Existing datasets on groceries are mainly 2D images. Models trained on these datasets are limited to learning features from the regular 2D grids. While portable 3D sensors such as Kinect were commonly available for mobile phones, sensors such as LiDAR and TrueDepth, have recently been integrated into mobile phones. Despite the availability of mobile 3D sensors, there are currently no dedicated real-world large-scale benchmark 3D datasets for grocery. In addition, existing 3D datasets lack fine-grained grocery categories and have limited training samples. Furthermore, collecting data by going around the object versus the traditional photo capture makes data collection cumbersome. Thus, we introduce a large-scale grocery dataset called 3DGrocery100. It constitutes 100 classes, with a total of 87,898 3D point clouds created from 10,755 RGB-D single-view images. We benchmark our dataset on six recent state-of-the-art 3D point cloud classification models. Additionally, we also benchmark the dataset on few-shot and continual learning point cloud classification tasks. Project Page: https://bigdatavision.org/3DGrocery100/.

arxiv情報

著者 Shivanand Venkanna Sheshappanavar,Tejas Anvekar,Shivanand Kundargi,Yufan Wang,Chandra Kambhamettu
発行日 2024-02-12 17:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク