HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

要約

3Dでエゴセントリックハンドとオブジェクト追跡のために公開されているデータセットであるHot3Dを紹介します。
データセットは、33の多様な剛性オブジェクトと相互作用する19の被験者を特徴とする833分(3.7m以上の画像)の録音を提供します。
単純なピックアップ、観察、およびパットダウンアクションに加えて、被験者はキッチン、オフィス、リビングルームの環境に典型的なアクションを実行します。
録音には、エゴセントリックマルチビューRGB/モノクロ画像、視線シグナル、シーンポイントクラウド、カメラ、ハンド、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれます。
データセットは、AIメガネの研究プロトタイプであるMetaの2つのヘッドセットと、数百万ユニットを出荷した仮想現実ヘッドセットであるQuest 3で記録されます。
基本真実のポーズは、手とオブジェクトに取り付けられた小さな光学マーカーを使用して、モーションキャプチャシステムによって取得されました。
手注釈はUmetrackおよびMano形式で提供され、オブジェクトは、社内スキャナーによって得られたPBR材料を使用した3Dメッシュで表されます。
実験では、3つの人気のあるタスクのマルチビューエゴセントリックデータの有効性を実証します:3Dハンドトラッキング、モデルベースの6DOFオブジェクトのポーズ推定、および不明な手オブジェクトの3Dリフティング。
ベンチマークがHOT3Dによってユニークに有効になっている評価されたマルチビューメソッドは、シングルビューのカウンターパートを大幅に上回っています。

要約(オリジナル)

We introduce HOT3D, a publicly available dataset for egocentric hand and object tracking in 3D. The dataset offers over 833 minutes (3.7M+ images) of recordings that feature 19 subjects interacting with 33 diverse rigid objects. In addition to simple pick-up, observe, and put-down actions, the subjects perform actions typical for a kitchen, office, and living room environment. The recordings include multiple synchronized data streams containing egocentric multi-view RGB/monochrome images, eye gaze signal, scene point clouds, and 3D poses of cameras, hands, and objects. The dataset is recorded with two headsets from Meta: Project Aria, which is a research prototype of AI glasses, and Quest 3, a virtual-reality headset that has shipped millions of units. Ground-truth poses were obtained by a motion-capture system using small optical markers attached to hands and objects. Hand annotations are provided in the UmeTrack and MANO formats, and objects are represented by 3D meshes with PBR materials obtained by an in-house scanner. In our experiments, we demonstrate the effectiveness of multi-view egocentric data for three popular tasks: 3D hand tracking, model-based 6DoF object pose estimation, and 3D lifting of unknown in-hand objects. The evaluated multi-view methods, whose benchmarking is uniquely enabled by HOT3D, significantly outperform their single-view counterparts.

arxiv情報

著者 Prithviraj Banerjee,Sindi Shkodrani,Pierre Moulon,Shreyas Hampali,Shangchen Han,Fan Zhang,Linguang Zhang,Jade Fountain,Edward Miller,Selen Basol,Richard Newcombe,Robert Wang,Jakob Julian Engel,Tomas Hodan
発行日 2025-04-30 13:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク