UniHOI: Learning Fast, Dense and Generalizable 4D Reconstruction for Egocentric Hand Object Interaction Videos

要約

Egocentric Hand Object Interaction (HOI) ビデオは、人間と物理世界の相互作用についての貴重な洞察を提供し、コンピューター ビジョンとロボット工学のコミュニティからの関心が高まっています。
HOI シーンのジオメトリとダイナミクスを完全に理解するための重要なタスクは、高密度点群シーケンスの再構成です。
ただし、両手とカメラの固有の動きにより、これは困難になります。
現在の方法は、多くの場合、時間のかかるテスト時間の最適化に依存しているため、インターネット規模のビデオを再構成するのは非現実的です。
これに対処するために、カメラ固有の要素、カメラのポーズ、ビデオ深度など、高密度 4D 再構築に必要なすべての変数の推定を高速フィードフォワード方式で自己中心的な HOI シーンに統合するモデルである UniHOI を導入します。
これらすべての変数をエンドツーエンドで最適化し、3D 空間での一貫性を向上させます。
さらに、私たちのモデルは大規模な単眼ビデオ データセットのみでトレーニングでき、希少なラベル付き HOI データの制限を克服できます。
ドメイン内およびゼロショット汎化設定の両方で UniHOI を評価し、点群シーケンスの再構築と長期 3D シーン フローの回復においてすべてのベースラインを上回りました。
UniHOI は、動きの存在下で高速、高密度、一般化可能な単眼自己中心 HOI シーン再構成を提供する最初のアプローチです。
コードとトレーニング済みモデルは将来リリースされる予定です。

要約(オリジナル)

Egocentric Hand Object Interaction (HOI) videos provide valuable insights into human interactions with the physical world, attracting growing interest from the computer vision and robotics communities. A key task in fully understanding the geometry and dynamics of HOI scenes is dense pointclouds sequence reconstruction. However, the inherent motion of both hands and the camera makes this challenging. Current methods often rely on time-consuming test-time optimization, making them impractical for reconstructing internet-scale videos. To address this, we introduce UniHOI, a model that unifies the estimation of all variables necessary for dense 4D reconstruction, including camera intrinsic, camera poses, and video depth, for egocentric HOI scene in a fast feed-forward manner. We end-to-end optimize all these variables to improve their consistency in 3D space. Furthermore, our model could be trained solely on large-scale monocular video dataset, overcoming the limitation of scarce labeled HOI data. We evaluate UniHOI with both in-domain and zero-shot generalization setting, surpassing all baselines in pointclouds sequence reconstruction and long-term 3D scene flow recovery. UniHOI is the first approach to offer fast, dense, and generalizable monocular egocentric HOI scene reconstruction in the presence of motion. Code and trained model will be released in the future.

arxiv情報

著者 Chengbo Yuan,Geng Chen,Li Yi,Yang Gao
発行日 2024-11-15 12:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク