要約
ロボットアセンブリタスクには、特に費用のかかる機械的制約を回避するタスクの場合、オブジェクトポーズの推定が必要です。
オブジェクトの対称性は、回転が曖昧になり、独自のトレーニングターゲットが欠けているため、オブジェクトの回転への感覚入力の直接マッピングを複雑にします。
提案されたソリューションには、入力に対する複数のポーズ仮説を評価するか、確率分布を予測することが含まれますが、これらのアプローチは重要な計算オーバーヘッドに悩まされています。
ここでは、神経集団コードでオブジェクトの回転を表すことがこれらの制限を克服し、回転とエンドツーエンドの学習への直接マッピングを可能にすることを示します。
その結果、人口コードは迅速かつ正確なポーズ推定を促進します。
T-Lessデータセットでは、Apple M1 CPUの3.2ミリ秒で推論を達成し、グレースケールの画像入力のみを使用して、直接マッピングにポーズをとると69.7%の精度と比較して、84.7%の最大対称性表面距離精度を84.7%に達成します。
要約(オリジナル)
Robotic assembly tasks require object-pose estimation, particularly for tasks that avoid costly mechanical constraints. Object symmetry complicates the direct mapping of sensory input to object rotation, as the rotation becomes ambiguous and lacks a unique training target. Some proposed solutions involve evaluating multiple pose hypotheses against the input or predicting a probability distribution, but these approaches suffer from significant computational overhead. Here, we show that representing object rotation with a neural population code overcomes these limitations, enabling a direct mapping to rotation and end-to-end learning. As a result, population codes facilitate fast and accurate pose estimation. On the T-LESS dataset, we achieve inference in 3.2 milliseconds on an Apple M1 CPU and a Maximum Symmetry-Aware Surface Distance accuracy of 84.7% using only gray-scale image input, compared to 69.7% accuracy when directly mapping to pose.
arxiv情報
著者 | Heiko Hoffmann,Richard Hoffmann |
発行日 | 2025-02-19 03:23:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google