要約
ロボット工学や拡張現実アプリケーションでは、正確かつ効率的な 6D オブジェクトの姿勢推定への依存がますます高まっており、よりインタラクティブで応答性の高いシステムには、エッジ デバイスでのリアルタイム パフォーマンスが必要となります。
私たちが提案する Sparse Color-Code Net (SCCN) は、この要件に効果的に対処するための明確かつ簡潔なパイプライン設計を具体化しています。
SCCN は、RGB 画像内のターゲット オブジェクトに対してピクセル レベルの予測を実行し、重要なオブジェクト ジオメトリ機能のまばらさを利用して Perspective-n-Point (PnP) 計算プロセスを高速化します。
さらに、初期姿勢予測とシームレスに統合する新しいピクセルレベルのジオメトリベースのオブジェクト対称表現を導入し、対称オブジェクトの曖昧さに効果的に対処します。
SCCN は特に、NVIDIA Jetson AGX Xavier のベンチマーク LINEMOD データセットとオクルージョン LINEMOD データセットでそれぞれ 19 フレーム/秒 (FPS) と 6 FPS の推定レートを達成しながら、これらのレートで高い推定精度を一貫して維持しています。
要約(オリジナル)
As robotics and augmented reality applications increasingly rely on precise and efficient 6D object pose estimation, real-time performance on edge devices is required for more interactive and responsive systems. Our proposed Sparse Color-Code Net (SCCN) embodies a clear and concise pipeline design to effectively address this requirement. SCCN performs pixel-level predictions on the target object in the RGB image, utilizing the sparsity of essential object geometry features to speed up the Perspective-n-Point (PnP) computation process. Additionally, it introduces a novel pixel-level geometry-based object symmetry representation that seamlessly integrates with the initial pose predictions, effectively addressing symmetric object ambiguities. SCCN notably achieves an estimation rate of 19 frames per second (FPS) and 6 FPS on the benchmark LINEMOD dataset and the Occlusion LINEMOD dataset, respectively, for an NVIDIA Jetson AGX Xavier, while consistently maintaining high estimation accuracy at these rates.
arxiv情報
| 著者 | Xingjian Yang,Zhitao Yu,Ashis G. Banerjee |
| 発行日 | 2024-06-05 06:21:48+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google