3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects

要約

人間は、手に持った物体を環境と対話するためのツールとして使用する驚くべき能力を持っています。
これを実現するために、人間は手の動きが物体の動きにどのような影響を与えるかを内部的に推定します。
私たちはロボットにこの機能を与えたいと考えています。
私たちは、外部カメラで撮影した RGB 画像から、ロボットが把握した物体の形状と姿勢を共同推定する方法論に貢献します。
特に、私たちの方法は推定されたジオメトリをロボットの座標フレームに変換しますが、外部カメラの外部パラメータを校正する必要はありません。
私たちのアプローチでは、3D 基礎モデル、つまり 3D ビジョン タスク用の巨大なデータセットで事前トレーニングされた大規模なモデルを利用して、手元にあるオブジェクトの初期推定値を生成します。
これらの初期推定値は物理的に正しいスケールを持たず、カメラのフレーム内にあります。
次に、ロボットの座標フレームへのオブジェクトの変換とともに、正確なスケールを復元するための座標位置合わせの問題を定式化し、効率的に解決します。
その後、マニピュレータの関節角度からオブジェクト上の指定された点まで順運動学マッピングを定義できます。
これらのマッピングにより、把持物体の任意の形状における点の推定が可能となり、把持物体の座標を基準としたロボットの動作設計が可能となります。
私たちは、現実世界のさまざまなオブジェクトを保持するロボット マニピュレーターに対するアプローチを経験的に評価します。

要約(オリジナル)

Humans have the remarkable ability to use held objects as tools to interact with their environment. For this to occur, humans internally estimate how hand movements affect the object’s movement. We wish to endow robots with this capability. We contribute methodology to jointly estimate the geometry and pose of objects grasped by a robot, from RGB images captured by an external camera. Notably, our method transforms the estimated geometry into the robot’s coordinate frame, while not requiring the extrinsic parameters of the external camera to be calibrated. Our approach leverages 3D foundation models, large models pre-trained on huge datasets for 3D vision tasks, to produce initial estimates of the in-hand object. These initial estimations do not have physically correct scales and are in the camera’s frame. Then, we formulate, and efficiently solve, a coordinate-alignment problem to recover accurate scales, along with a transformation of the objects to the coordinate frame of the robot. Forward kinematics mappings can subsequently be defined from the manipulator’s joint angles to specified points on the object. These mappings enable the estimation of points on the held object at arbitrary configurations, enabling robot motion to be designed with respect to coordinates on the grasped objects. We empirically evaluate our approach on a robot manipulator holding a diverse set of real-world objects.

arxiv情報

著者 Weiming Zhi,Haozhan Tang,Tianyi Zhang,Matthew Johnson-Roberson
発行日 2024-07-14 21:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク