Ins-HOI: Instance Aware Human-Object Interactions Recovery

要約

人間や手と物体との間の詳細な相互作用を正確にモデル化することは、魅力的ではありますが、やりがいのある作業です。
現在のマルチビュー キャプチャ システムは、複数の対象を単一の統合メッシュに再構築することしかできず、インタラクション中の各インスタンスの状態を個別にモデル化することができません。
これに対処するために、以前の方法ではテンプレートベースの表現を使用して人間/手と物体を追跡しました。
ただし、再構成の品質はテンプレートの記述機能によって制限されるため、これらの方法は本質的にジオメトリの詳細、圧迫変形、目に見えない接触面に対処するのに苦労します。
この研究では、インスタンス レベルの占有フィールド表現を導入することにより、エンドツーエンドのインスタンス認識ヒューマン オブジェクト インタラクション リカバリ (Ins-HOI) フレームワークを提案します。
ただし、実際にキャプチャされたデータは全体的なメッシュとして表示され、インスタンス レベルの監視を提供できません。
これに対処するために、合成データを活用してインスタンスレベルの形状事前分布を導入し、さまざまなインスタンスの占有フィールドのもつれを解くことを可能にする補完的なトレーニング戦略をさらに提案します。
具体的には、人や手、物体の個々のスキャンをランダムに組み合わせて作成された合成データは、ネットワークがインスタンスの大まかな事前情報を学習するように導きます。
一方、実際に取得されたデータは、全体の形状を学習し、接触領域の相互侵入を制限するのに役立ちます。
実験で実証されているように、私たちの手法 Ins-HOI はインスタンスレベルの再構成をサポートし、非常に密接な相互作用の場合でも合理的かつ現実的な目に見えない接触面を提供します。
このタスクの研究を促進するために、実際の人間と椅子および手と物体の相互作用を含む 5.2k の高品質スキャンを含む、大規模で忠実度の高い 3D スキャン データセットを収集します。
コードとデータは研究目的で公開されます。

要約(オリジナル)

Accurately modeling detailed interactions between human/hand and object is an appealing yet challenging task. Current multi-view capture systems are only capable of reconstructing multiple subjects into a single, unified mesh, which fails to model the states of each instance individually during interactions. To address this, previous methods use template-based representations to track human/hand and object. However, the quality of the reconstructions is limited by the descriptive capabilities of the templates so that these methods are inherently struggle with geometry details, pressing deformations and invisible contact surfaces. In this work, we propose an end-to-end Instance-aware Human-Object Interactions recovery (Ins-HOI) framework by introducing an instance-level occupancy field representation. However, the real-captured data is presented as a holistic mesh, unable to provide instance-level supervision. To address this, we further propose a complementary training strategy that leverages synthetic data to introduce instance-level shape priors, enabling the disentanglement of occupancy fields for different instances. Specifically, synthetic data, created by randomly combining individual scans of humans/hands and objects, guides the network to learn a coarse prior of instances. Meanwhile, real-captured data helps in learning the overall geometry and restricting interpenetration in contact areas. As demonstrated in experiments, our method Ins-HOI supports instance-level reconstruction and provides reasonable and realistic invisible contact surfaces even in cases of extremely close interaction. To facilitate the research of this task, we collect a large-scale, high-fidelity 3D scan dataset, including 5.2k high-quality scans with real-world human-chair and hand-object interactions. The code and data will be public for research purposes.

arxiv情報

著者 Jiajun Zhang,Yuxiang Zhang,Hongwen Zhang,Xiao Zhou,Boyao Zhou,Ruizhi Shao,Zonghai Hu,Yebin Liu
発行日 2024-03-21 15:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク