要約
人間は、操作中に堅牢なオブジェクト知覚のために視覚と触覚を自然に統合します。
いずれかのモダリティの損失は、パフォーマンスを大幅に低下させます。
この多感覚の統合に触発されて、以前のオブジェクトのポーズ推定研究は、視覚と触覚/触覚のフィードバックを組み合わせようとしました。
これらの作品は、制御された環境または合成データセットの改善を示していますが、多様なグリッパー、センサーレイアウト、またはSIM-to-Real環境全体の一般化が不十分であるため、実際の設定でのビジョンのみのアプローチをパフォーマンスしていることがよくあります。
さらに、彼らは通常、各フレームのオブジェクトのポーズを個別に推定し、実際の展開のシーケンス上の一貫性のない追跡が少なくなります。
これらの制限に対処するために、複数のグリッパー実施形態を効果的に処理する新しい統一された触覚表現を導入します。
この表現に基づいて、視覚的および触覚入力をシームレスに統合する新しいVisuo-Haptic Transformerベースのオブジェクトポーズトラッカーを導入します。
データセットとFeelightデータセットのフレームワークを検証し、挑戦的なシーケンスの大幅なパフォーマンス改善を示しています。
特に、我々の方法は、新規の実施形態、オブジェクト、センサーの種類(タクエルベースの触覚センサーと視覚ベースの触覚センサーの両方)にわたって優れた一般化と堅牢性を達成します。
実際の実験では、私たちのアプローチが最先端のビジュアルトラッカーより大きなマージンを上回ることを実証します。
さらに、リアルタイムのオブジェクト追跡結果をモーションプランに組み込み、視覚障害の知覚の利点を強調することにより、正確な操作タスクを実現できることを示します。
私たちのモデルとデータセットは、論文を受け入れるとオープンソースになります。
プロジェクトWebサイト:https://lhy.xyz/projects/v-hop/
要約(オリジナル)
Humans naturally integrate vision and haptics for robust object perception during manipulation. The loss of either modality significantly degrades performance. Inspired by this multisensory integration, prior object pose estimation research has attempted to combine visual and haptic/tactile feedback. Although these works demonstrate improvements in controlled environments or synthetic datasets, they often underperform vision-only approaches in real-world settings due to poor generalization across diverse grippers, sensor layouts, or sim-to-real environments. Furthermore, they typically estimate the object pose for each frame independently, resulting in less coherent tracking over sequences in real-world deployments. To address these limitations, we introduce a novel unified haptic representation that effectively handles multiple gripper embodiments. Building on this representation, we introduce a new visuo-haptic transformer-based object pose tracker that seamlessly integrates visual and haptic input. We validate our framework in our dataset and the Feelsight dataset, demonstrating significant performance improvement on challenging sequences. Notably, our method achieves superior generalization and robustness across novel embodiments, objects, and sensor types (both taxel-based and vision-based tactile sensors). In real-world experiments, we demonstrate that our approach outperforms state-of-the-art visual trackers by a large margin. We further show that we can achieve precise manipulation tasks by incorporating our real-time object tracking result into motion plans, underscoring the advantages of visuo-haptic perception. Our model and dataset will be made open source upon acceptance of the paper. Project website: https://lhy.xyz/projects/v-hop/
arxiv情報
著者 | Hongyu Li,Mingxi Jia,Tuluhan Akbulut,Yu Xiang,George Konidaris,Srinath Sridhar |
発行日 | 2025-02-24 18:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google