Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation

要約

我々は、より正確な接触モデリングのために分散触覚センシングを統合した、動的な手と物体の相互作用再構築のための新しい視覚触覚フレームワークである ViTaM-D を紹介します。
既存の手法は主に視覚入力に焦点を当てていますが、オブジェクトの変形などの詳細な接触インタラクションをキャプチャするのに苦労しています。
私たちのアプローチは分散型触覚センサーを活用し、DF-Field を導入することでこの制限に対処します。
この分散された力を意識した接触表現は、手と物体の相互作用における運動エネルギーと位置エネルギーの両方をモデル化します。
ViTaM-D は、まず視覚専用ネットワーク VDT-Net を使用して手とオブジェクトのインタラクションを再構築し、次に力認識最適化 (FO) プロセスを通じて接触の詳細を調整し、オブジェクトの変形モデリングを強化します。
私たちのアプローチのベンチマークとして、高精度のシミュレーション環境で構築された、変形可能なオブジェクトを含む手とオブジェクトのインタラクションの 600 シーケンスを特徴とする HOT データセットを導入します。
DexYCB と HOT データセットの両方に対する広範な実験により、gSDF や HOTrack などの以前の最先端の手法と比較して精度が大幅に向上していることが実証されました。
私たちの結果は、剛体と変形可能なオブジェクトの両方の再構成における ViTaM-D の優れたパフォーマンスと、手のポーズの調整における DF-Field の有効性を強調しています。
この研究は、視覚データと触覚データをシームレスに統合することにより、手とオブジェクトの動的インタラクション再構築に対する包括的なソリューションを提供します。
コード、モデル、データセットが利用可能になります。

要約(オリジナル)

We present ViTaM-D, a novel visual-tactile framework for dynamic hand-object interaction reconstruction, integrating distributed tactile sensing for more accurate contact modeling. While existing methods focus primarily on visual inputs, they struggle with capturing detailed contact interactions such as object deformation. Our approach leverages distributed tactile sensors to address this limitation by introducing DF-Field. This distributed force-aware contact representation models both kinetic and potential energy in hand-object interaction. ViTaM-D first reconstructs hand-object interactions using a visual-only network, VDT-Net, and then refines contact details through a force-aware optimization (FO) process, enhancing object deformation modeling. To benchmark our approach, we introduce the HOT dataset, which features 600 sequences of hand-object interactions, including deformable objects, built in a high-precision simulation environment. Extensive experiments on both the DexYCB and HOT datasets demonstrate significant improvements in accuracy over previous state-of-the-art methods such as gSDF and HOTrack. Our results highlight the superior performance of ViTaM-D in both rigid and deformable object reconstruction, as well as the effectiveness of DF-Field in refining hand poses. This work offers a comprehensive solution to dynamic hand-object interaction reconstruction by seamlessly integrating visual and tactile data. Codes, models, and datasets will be available.

arxiv情報

著者 Zhenjun Yu,Wenqiang Xu,Pengfei Xie,Yutong Li,Cewu Lu
発行日 2024-11-14 16:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク