RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

要約

関節角度が未知の多関節ロボットの視覚ベースの姿勢推定は、協調ロボット工学や人間とロボットのインタラクションタスクに応用できます。
現在のフレームワークは、ニューラル ネットワーク エンコーダーを使用して画像の特徴を抽出し、下流のレイヤーを使用して関節の角度とロボットの姿勢を予測します。
ロボットの画像には本質的にロボットの物理的構造に関する豊富な情報が含まれていますが、既存の方法ではそれを十分に活用できないことがよくあります。
したがって、オクルージョンやトランケーションの下ではパフォーマンスが制限されます。
これに対処するために、マスキングベースの自己監視型埋め込み予測アーキテクチャを使用して、ロボットの物理モデルに関する情報をエンコーダーに融合する手法である RoboPEPP を導入します。
具体的には、ロボットの関節をマスクし、周囲のマスクされていない領域から関節の埋め込みを推測するためにエンコーダー予測モデルを事前トレーニングし、ロボットの物理モデルに対するエンコーダーの理解を強化します。
事前トレーニングされたエンコーダーと予測子のペアは、関節角度とキーポイント予測ネットワークとともに、姿勢と関節角度の推定のために微調整されます。
微調整中の入力のランダム マスキングと評価中のキーポイント フィルタリングにより、堅牢性がさらに向上します。
いくつかのデータセットで評価された私たちの方法は、オクルージョンの影響を最も受けにくく、必要な実行時間も最小限に抑えながら、ロボットの姿勢と関節角度の推定で最高の結果を達成します。

要約(オリジナル)

Vision-based pose estimation of articulated robots with unknown joint angles has applications in collaborative robotics and human-robot interaction tasks. Current frameworks use neural network encoders to extract image features and downstream layers to predict joint angles and robot pose. While images of robots inherently contain rich information about the robot’s physical structures, existing methods often fail to leverage it fully; therefore, limiting performance under occlusions and truncations. To address this, we introduce RoboPEPP, a method that fuses information about the robot’s physical model into the encoder using a masking-based self-supervised embedding-predictive architecture. Specifically, we mask the robot’s joints and pre-train an encoder-predictor model to infer the joints’ embeddings from surrounding unmasked regions, enhancing the encoder’s understanding of the robot’s physical model. The pre-trained encoder-predictor pair, along with joint angle and keypoint prediction networks, is then fine-tuned for pose and joint angle estimation. Random masking of input during fine-tuning and keypoint filtering during evaluation further improves robustness. Our method, evaluated on several datasets, achieves the best results in robot pose and joint angle estimation while being the least sensitive to occlusions and requiring the lowest execution time.

arxiv情報

著者 Raktim Gautam Goswami,Prashanth Krishnamurthy,Yann LeCun,Farshad Khorrami
発行日 2024-11-26 18:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク