CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera

要約

カメラとロボットのキャリブレーションは、ビジョンベースのロボット制御にとって重要であり、正確にするためには努力が必要です。
マーカーレス姿勢推定方法の最近の進歩により、カメラとロボットのキャリブレーションのための時間のかかる物理的なセットアップの必要性がなくなりました。
既存のマーカーレス姿勢推定方法は、面倒なセットアップを必要とせずに優れた精度を実証していますが、ロボットのすべての関節がカメラの視野内に表示されているという前提に基づいています。
ただし、実際には、通常、ロボットは視界に入ったり視界から消えたりするため、現実世界の制約によりロボットの一部が操作タスク全体にわたってフレーム外に留まり、十分な視覚機能の欠如とその後の失敗につながる可能性があります。
これらのアプローチのうち。
この課題に対処し、ビジョンベースのロボット制御への適用性を高めるために、部分的に見えるロボットマニピュレータを使用してロボットの姿勢を推定できる新しいフレームワークを提案します。
私たちのアプローチは、視覚言語モデルを活用してロボットのコンポーネントをきめ細かく検出し、それをキーポイントベースの姿勢推定ネットワークに統合することで、さまざまな動作条件でより堅牢なパフォーマンスを可能にします。
このフレームワークは、公開ロボット データセットと自己収集の部分ビュー データセットの両方で評価され、堅牢性と一般化可能性が実証されています。
結果として、この方法は、より広範な現実世界の操作シナリオにおけるロボットの姿勢推定に有効です。

要約(オリジナル)

Camera-to-robot calibration is crucial for vision-based robot control and requires effort to make it accurate. Recent advancements in markerless pose estimation methods have eliminated the need for time-consuming physical setups for camera-to-robot calibration. While the existing markerless pose estimation methods have demonstrated impressive accuracy without the need for cumbersome setups, they rely on the assumption that all the robot joints are visible within the camera’s field of view. However, in practice, robots usually move in and out of view, and some portion of the robot may stay out-of-frame during the whole manipulation task due to real-world constraints, leading to a lack of sufficient visual features and subsequent failure of these approaches. To address this challenge and enhance the applicability to vision-based robot control, we propose a novel framework capable of estimating the robot pose with partially visible robot manipulators. Our approach leverages the Vision-Language Models for fine-grained robot components detection, and integrates it into a keypoint-based pose estimation network, which enables more robust performance in varied operational conditions. The framework is evaluated on both public robot datasets and self-collected partial-view datasets to demonstrate our robustness and generalizability. As a result, this method is effective for robot pose estimation in a wider range of real-world manipulation scenarios.

arxiv情報

著者 Jingpei Lu,Zekai Liang,Tristin Xie,Florian Ritcher,Shan Lin,Sainan Liu,Michael C. Yip
発行日 2024-09-16 16:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク