要約
3D再構成のために、データキャプチャシステムと新しいデータセット、HO-CAPを紹介し、ビデオで手とオブジェクトの追跡をポーズにします。
このシステムは、高価な3DスキャナーまたはMOCAPシステムの使用を避けて、データ収集のために複数のRGBDカメラとHololensヘッドセットを活用しています。
収集されたビデオで手とオブジェクトの形状とポーズを注視するための半自動方法を提案し、手動ラベルと比較して注釈時間を大幅に短縮します。
このシステムを使用して、オブジェクトと対話する人間のビデオデータセットをキャプチャして、単純なピックアンドプレイスアクション、手の間の手ぶり、アフォーダンスに従ってオブジェクトを使用するさまざまなタスクを実行しました。
当社のデータキャプチャセットアップと注釈フレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、ビデオでポーズを追跡するのに使用できるようになります。
要約(オリジナル)
We introduce a data capture system and a new dataset, HO-Cap, for 3D reconstruction and pose tracking of hands and objects in videos. The system leverages multiple RGBD cameras and a HoloLens headset for data collection, avoiding the use of expensive 3D scanners or mocap systems. We propose a semi-automatic method for annotating the shape and pose of hands and objects in the collected videos, significantly reducing the annotation time compared to manual labeling. With this system, we captured a video dataset of humans interacting with objects to perform various tasks, including simple pick-and-place actions, handovers between hands, and using objects according to their affordance, which can serve as human demonstrations for research in embodied AI and robot manipulation. Our data capture setup and annotation framework will be available for the community to use in reconstructing 3D shapes of objects and human hands and tracking their poses in videos.
arxiv情報
著者 | Jikai Wang,Qifan Zhang,Yu-Wei Chao,Bowen Wen,Xiaohu Guo,Yu Xiang |
発行日 | 2025-03-11 16:48:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google