Depth-PC: A Visual Servo Framework Integrated with Cross-Modality Fusion for Sim2Real Transfer

要約

ビジュアルサーボ技術は、視覚情報を使用してロボットの動きをガイドし、高精度とノイズに対する堅牢性を必要とする操作タスクを実行します。
従来の方法では、多くの場合、事前の知識が必要であり、外乱の影響を受けやすくなります。
学習主導型の代替案は有望ではありますが、トレーニング データの不足に悩まされ、一般化には不十分であることがよくあります。
これらの課題に対処するために、シミュレーション トレーニングを活用し、画像からのキーポイントの意味論的および幾何学的な情報を利用して、実世界のサーボ タスクへのゼロショット転送を可能にする、新しいビジュアル サーボ フレームワーク Depth-PC を提案します。
私たちのフレームワークは、キーポイント フィーチャのクエリと相対的な深度情報を結びつけるサーボ コントローラーに焦点を当てています。
その後、これら 2 つのモダリティからの融合された特徴がグラフ ニューラル ネットワークによって処理され、キーポイント間の幾何学的および意味論的な対応が確立され、ロボットの状態が更新されます。
シミュレーションと現実世界の実験を通じて、当社のアプローチは、最先端の方法と比較して優れた収束域と精度を実証し、ロボットサーボタスクの要件を満たしながら、現実世界のシナリオへのゼロショット適用を可能にします。
私たちが提案したフレームワークで達成された機能強化に加えて、サーボタスクの領域内でのクロスモダリティ機能融合の有効性も実証しました。

要約(オリジナル)

Visual servo techniques guide robotic motion using visual information to accomplish manipulation tasks, requiring high precision and robustness against noise. Traditional methods often require prior knowledge and are susceptible to external disturbances. Learning-driven alternatives, while promising, frequently struggle with the scarcity of training data and fall short in generalization. To address these challenges, we propose a novel visual servo framework Depth-PC that leverages simulation training and exploits semantic and geometric information of keypoints from images, enabling zero-shot transfer to real-world servo tasks. Our framework focuses on the servo controller which intertwines keypoint feature queries and relative depth information. Subsequently, the fused features from these two modalities are then processed by a Graph Neural Network to establish geometric and semantic correspondence between keypoints and update the robot state. Through simulation and real-world experiments, our approach demonstrates superior convergence basin and accuracy compared to state-of-the-art methods, fulfilling the requirements for robotic servo tasks while enabling zero-shot application to real-world scenarios. In addition to the enhancements achieved with our proposed framework, we have also substantiated the efficacy of cross-modality feature fusion within the realm of servo tasks.

arxiv情報

著者 Haoyu Zhang,Weiyang Lin,Yimu Jiang,Chao Ye
発行日 2024-11-26 08:09:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク