RoboKeyGen: Robot Pose and Joint Angles Estimation via Diffusion-based 3D Keypoint Generation

要約

ロボットの姿勢と関節角度の推定は、高度なロボット工学において重要であり、ロボットのコラボレーションやオンラインの手と目のキャリブレーションなどのアプリケーションを可能にします。ただし、未知の関節角度の導入により、その高次元性により、単純なロボットの姿勢推定よりも予測がより複雑になります。以前の方法
3D キーポイントを直接回帰するか、レンダリングと比較戦略を利用します。
これらのアプローチは、パフォーマンスや効率の点で行き詰まり、カメラ間のギャップの問題に取り組むことがよくあります。この論文では、高次元の予測タスクを、2D キーポイントの検出と 2D キーポイントの 3D へのリフトという 2 つの管理可能なサブタスクに分割する新しいフレームワークを紹介します。
この分離により、キーポイントベースの技術本来の効率を犠牲にすることなく、パフォーマンスの向上が期待できます。私たちの方法の重要な要素は、2D キーポイントを 3D キーポイントに持ち上げることです。
一般的な決定論的回帰手法は、2D 検出エラーやセルフオクルージョンによる不確実性に直面すると行き詰まる可能性があります。拡散モデルの堅牢なモデリングの可能性を活用して、この問題を条件付き 3D キーポイント生成タスクとして再構築します。
カメラ間の適応性を強化するために、正規化カメラ座標空間 (NCCS) を導入し、さまざまなカメラ固有の推定 2D キーポイントの位置合わせを保証します。実験結果は、提案された方法が最先端のレンダリングと比較方法を上回り、次のことを達成することを示しています。
さらに、テストは私たちのメソッドの堅牢なクロスカメラ汎化機能を強調します。データセットとコードの両方を https://nimolty.github.io/Robokeygen/ でリリースする予定です。

要約(オリジナル)

Estimating robot pose and joint angles is significant in advanced robotics, enabling applications like robot collaboration and online hand-eye calibration.However, the introduction of unknown joint angles makes prediction more complex than simple robot pose estimation, due to its higher dimensionality.Previous methods either regress 3D keypoints directly or utilise a render&compare strategy. These approaches often falter in terms of performance or efficiency and grapple with the cross-camera gap problem.This paper presents a novel framework that bifurcates the high-dimensional prediction task into two manageable subtasks: 2D keypoints detection and lifting 2D keypoints to 3D. This separation promises enhanced performance without sacrificing the efficiency innate to keypoint-based techniques.A vital component of our method is the lifting of 2D keypoints to 3D keypoints. Common deterministic regression methods may falter when faced with uncertainties from 2D detection errors or self-occlusions.Leveraging the robust modeling potential of diffusion models, we reframe this issue as a conditional 3D keypoints generation task. To bolster cross-camera adaptability, we introduce theNormalised Camera Coordinate Space (NCCS), ensuring alignment of estimated 2D keypoints across varying camera intrinsics.Experimental results demonstrate that the proposed method outperforms the state-of-the-art render\&compare method and achieves higher inference speed.Furthermore, the tests accentuate our method’s robust cross-camera generalisation capabilities.We intend to release both the dataset and code in https://nimolty.github.io/Robokeygen/

arxiv情報

著者 Yang Tian,Jiyao Zhang,Guowei Huang,Bin Wang,Ping Wang,Jiangmiao Pang,Hao Dong
発行日 2024-03-27 05:15:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク