Reasoning and Learning a Perceptual Metric for Self-Training of Reflective Objects in Bin-Picking with a Low-cost Camera

要約

低コストのRGB-Dカメラを使用した金属オブジェクトのビンピッキングは、多くの場合、スパースの深さ情報と反射表面テクスチャに苦しみ、エラーと手動ラベルの必要性につながります。
人間の介入を減らすために、メトリック学習段階とセルフトレーニング段階で構成される2段階のフレームワークを提案します。
具体的には、低コストカメラ(LC)によってキャプチャされたデータを自動的に処理するために、深さ、衝突、および境界制約の下でポーズ仮説を最適化するマルチオブジェクトポーズ推論(MOPR)アルゴリズムを導入します。
ポーズ候補者をさらに洗練するために、対称化されたフィルタリングのために、期待最大化(EM)アルゴリズムと統合された対称性嘘グループベースのベイジアンガウス混合モデル(SAL-BGMM)を採用します。
さらに、LCが再構築されたデータから知覚メトリックを学習できるようにするために、加重ランキング情報ノイズコントラスト推定(WR-infonce)損失を提案し、訓練されていないオブジェクトまたは未見えになっていないオブジェクトでの自己トレーニングをサポートします。
実験結果は、私たちのアプローチが、Robiデータセットと新しく導入されたセルフロビングデータセットの両方で、いくつかの最先端の方法を上回ることを示しています。

要約(オリジナル)

Bin-picking of metal objects using low-cost RGB-D cameras often suffers from sparse depth information and reflective surface textures, leading to errors and the need for manual labeling. To reduce human intervention, we propose a two-stage framework consisting of a metric learning stage and a self-training stage. Specifically, to automatically process data captured by a low-cost camera (LC), we introduce a Multi-object Pose Reasoning (MoPR) algorithm that optimizes pose hypotheses under depth, collision, and boundary constraints. To further refine pose candidates, we adopt a Symmetry-aware Lie-group based Bayesian Gaussian Mixture Model (SaL-BGMM), integrated with the Expectation-Maximization (EM) algorithm, for symmetry-aware filtering. Additionally, we propose a Weighted Ranking Information Noise Contrastive Estimation (WR-InfoNCE) loss to enable the LC to learn a perceptual metric from reconstructed data, supporting self-training on untrained or even unseen objects. Experimental results show that our approach outperforms several state-of-the-art methods on both the ROBI dataset and our newly introduced Self-ROBI dataset.

arxiv情報

著者 Peiyuan Ni,Chee Meng Chew,Marcelo H. Ang Jr.,Gregory S. Chirikjian
発行日 2025-03-26 04:03:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク