Ensuring Force Safety in Vision-Guided Robotic Manipulation via Implicit Tactile Calibration

要約

動的な環境では、ロボットがドアなどの特定のプロパティを持つオブジェクトを操作するときに、制約された移動軌道に遭遇することがよくあります。
したがって、ロボットと物体の両方への損傷を防ぐためには、適切な力を加えることが重要です。
しかし、現在の視覚誘導ロボット状態生成方法は、触覚認識の統合が欠けているため、この点で行き詰まることがよくあります。
この問題に取り組むために、この文書では SafeDiff と呼ばれる新しい状態拡散フレームワークを紹介します。
リアルタイムの触覚フィードバックを組み込んでシーケンスを改良しながら、現在のロボットの状態と視覚的なコンテキスト観察から予想される状態シーケンスを生成します。
私たちが知る限り、これはロボット操作における力の安全性の確保に特に焦点を当てた最初の研究です。
これにより、状態計画の合理性が大幅に強化され、安全な行動軌道は、この洗練された計画に基づいた逆力学から導出されます。
実際には、視覚データと触覚データを連結して将来のロボット状態シーケンスを生成する以前のアプローチとは異なり、私たちの方法は、状態空間内のロボットの状態を暗黙的に調整するための校正信号として触覚データを使用します。
さらに、SafeDoorManip50k と呼ばれる大規模シミュレーション データセットを開発し、提案された手法をトレーニングおよび評価するための広範なマルチモーダル データを提供します。
広範な実験により、当社の視覚触覚モデルは、シミュレーション設定と現実世界の設定の両方で、ドア開口部に有害な力が加わるリスクを大幅に軽減することが示されています。

要約(オリジナル)

In dynamic environments, robots often encounter constrained movement trajectories when manipulating objects with specific properties, such as doors. Therefore, applying the appropriate force is crucial to prevent damage to both the robots and the objects. However, current vision-guided robot state generation methods often falter in this regard, as they lack the integration of tactile perception. To tackle this issue, this paper introduces a novel state diffusion framework termed SafeDiff. It generates a prospective state sequence from the current robot state and visual context observation while incorporating real-time tactile feedback to refine the sequence. As far as we know, this is the first study specifically focused on ensuring force safety in robotic manipulation. It significantly enhances the rationality of state planning, and the safe action trajectory is derived from inverse dynamics based on this refined planning. In practice, unlike previous approaches that concatenate visual and tactile data to generate future robot state sequences, our method employs tactile data as a calibration signal to adjust the robot’s state within the state space implicitly. Additionally, we’ve developed a large-scale simulation dataset called SafeDoorManip50k, offering extensive multimodal data to train and evaluate the proposed method. Extensive experiments show that our visual-tactile model substantially mitigates the risk of harmful forces in the door opening, across both simulated and real-world settings.

arxiv情報

著者 Lai Wei,Jiahua Ma,Yibo Hu,Ruimao Zhang
発行日 2024-12-13 18:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク