HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos


3D で自己中心的な手と物体を追跡するための公開されているデータセットである HOT3D を紹介します。
このデータセットは、833 分を超える (370 万枚以上の画像) のマルチビュー RGB/モノクロ画像ストリームを提供し、19 人の被験者が 33 の多様な剛体、視線やシーン点群などのマルチモーダル信号、および包括的な地面と相互作用する様子を示しています。
– 物体、手、カメラの 3D ポーズ、手と物体の 3D モデルを含む真実の注釈。
簡単な持ち上げ/観察/置くアクションに加えて、HOT3D には、キッチン、オフィス、リビング ルーム環境での典型的なアクションに似たシナリオが含まれています。
データセットは、Meta の 2 つのヘッドマウント デバイス、つまり軽量 AR/AI グラスの研究プロトタイプである Project Aria と、数百万台販売されている量産 VR ヘッドセットである Quest 3 によって記録されます。
グラウンドトゥルースのポーズは、手や物体に取り付けられた小さな光学マーカーを使用するプロのモーション キャプチャ システムによって取得されました。
手書きの注釈は、UmeTrack および MANO 形式で提供され、オブジェクトは社内スキャナーで取得した PBR 素材を使用した 3D メッシュで表現されます。
私たちの実験では、3D ハンド トラッキング、6DoF オブジェクトの姿勢推定、および未知の手持ちオブジェクトの 3D リフティングという 3 つの一般的なタスクに対するマルチビューの自己中心データの有効性を実証しました。
評価されたマルチビュー手法は、HOT3D によって独自にベンチマークが可能になっており、シングルビュー手法よりも大幅に優れたパフォーマンスを発揮します。


We introduce HOT3D, a publicly available dataset for egocentric hand and object tracking in 3D. The dataset offers over 833 minutes (more than 3.7M images) of multi-view RGB/monochrome image streams showing 19 subjects interacting with 33 diverse rigid objects, multi-modal signals such as eye gaze or scene point clouds, as well as comprehensive ground-truth annotations including 3D poses of objects, hands, and cameras, and 3D models of hands and objects. In addition to simple pick-up/observe/put-down actions, HOT3D contains scenarios resembling typical actions in a kitchen, office, and living room environment. The dataset is recorded by two head-mounted devices from Meta: Project Aria, a research prototype of light-weight AR/AI glasses, and Quest 3, a production VR headset sold in millions of units. Ground-truth poses were obtained by a professional motion-capture system using small optical markers attached to hands and objects. Hand annotations are provided in the UmeTrack and MANO formats and objects are represented by 3D meshes with PBR materials obtained by an in-house scanner. In our experiments, we demonstrate the effectiveness of multi-view egocentric data for three popular tasks: 3D hand tracking, 6DoF object pose estimation, and 3D lifting of unknown in-hand objects. The evaluated multi-view methods, whose benchmarking is uniquely enabled by HOT3D, significantly outperform their single-view counterparts.


著者 Prithviraj Banerjee,Sindi Shkodrani,Pierre Moulon,Shreyas Hampali,Shangchen Han,Fan Zhang,Linguang Zhang,Jade Fountain,Edward Miller,Selen Basol,Richard Newcombe,Robert Wang,Jakob Julian Engel,Tomas Hodan
発行日 2024-11-28 14:09:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク