HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction

要約

HOI4Dは、カテゴリレベルの人間と物体のインタラクションの研究を促進するために、豊富なアノテーションを持つ大規模な4Dエゴセントリックデータセットである。HOI4Dは、610の異なる室内において、4人の参加者が16のカテゴリから800の異なるオブジェクトインスタンスとインタラクションするために収集された、4000シーケンスにわたる240万のRGB-Dエゴセントリックビデオフレームから構成される。汎視セグメンテーション、モーションセグメンテーション、3Dハンドポーズ、カテゴリレベルのオブジェクトポーズ、ハンドアクションのためのフレーム単位のアノテーションも、再構成されたオブジェクトメッシュとシーンポイントクラウドとともに提供されている。HOI4Dにより、4D視覚信号からカテゴリレベルのHOIを促進するために、4D動的点群シーケンスのセマンティックセグメンテーション、カテゴリレベルの物体ポーズトラッキング、多様なインタラクションターゲットを持つ自心的アクションセグメンテーションを含む3つのベンチマークタスクを確立しました。詳細な分析により、HOI4Dは既存の手法に大きな課題を突きつけ、大きな研究機会を生み出すことがわかる。

要約(オリジナル)

We present HOI4D, a large-scale 4D egocentric dataset with rich annotations, to catalyze the research of category-level human-object interaction. HOI4D consists of 2.4M RGB-D egocentric video frames over 4000 sequences collected by 4 participants interacting with 800 different object instances from 16 categories over 610 different indoor rooms. Frame-wise annotations for panoptic segmentation, motion segmentation, 3D hand pose, category-level object pose and hand action have also been provided, together with reconstructed object meshes and scene point clouds. With HOI4D, we establish three benchmarking tasks to promote category-level HOI from 4D visual signals including semantic segmentation of 4D dynamic point cloud sequences, category-level object pose tracking, and egocentric action segmentation with diverse interaction targets. In-depth analysis shows HOI4D poses great challenges to existing methods and produces great research opportunities.

arxiv情報

著者 Yunze Liu,Yun Liu,Che Jiang,Kangbo Lyu,Weikang Wan,Hao Shen,Boqiang Liang,Zhoujie Fu,He Wang,Li Yi
発行日 2024-01-03 14:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク