ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions

要約

日常の活動において人間が物理世界とどのように相互作用するかを機械が学習できるようにするには、人間の 3D 動作と学習可能な 3D 表現でのオブジェクトの動作を含む豊富なデータを提供することが重要です。
理想的には、このデータは自然な設定で収集され、人間と物体の相互作用中に本物の動的な 3D 信号をキャプチャする必要があります。
この課題に対処するために、私たちは、共通の家庭環境内で人間や物体の動的な 3D の動きをキャプチャしてパラメータ化するように設計された ParaHome システムを導入しました。
当社のシステムは、70 台の同期 RGB カメラを備えたマルチビュー セットアップと、IMU ベースのボディ スーツとハンド モーション キャプチャ グローブを備えたウェアラブル モーション キャプチャ デバイスで構成されています。
ParaHome システムを活用することで、人間と物体のインタラクションに関する新しい大規模なデータセットを収集します。
特に、私たちのデータセットは、次の 3 つの主要な側面で既存のデータセットに比べて重要な進歩をもたらしています。(1) 自然活動中の状況に応じた家庭環境内での 3D オブジェクトの動きと並行して、3D 身体と器用な手の操作動作をキャプチャします。
(2) さまざまなエピソードのシナリオにおける複数のオブジェクトとの人間の相互作用と、対応するテキストでの説明が含まれます。
(3) パラメータ化されたアーティキュレーションで表現された複数のパーツを持つアーティキュレーションされたオブジェクトを含みます。
私たちのデータセットに基づいて、現実世界の部屋設定における人間とオブジェクトの相互作用を学習および合成するための生成モデルを構築することを目的とした新しい研究タスクを導入します。

要約(オリジナル)

To enable machines to learn how humans interact with the physical world in our daily activities, it is crucial to provide rich data that encompasses the 3D motion of humans as well as the motion of objects in a learnable 3D representation. Ideally, this data should be collected in a natural setup, capturing the authentic dynamic 3D signals during human-object interactions. To address this challenge, we introduce the ParaHome system, designed to capture and parameterize dynamic 3D movements of humans and objects within a common home environment. Our system consists of a multi-view setup with 70 synchronized RGB cameras, as well as wearable motion capture devices equipped with an IMU-based body suit and hand motion capture gloves. By leveraging the ParaHome system, we collect a novel large-scale dataset of human-object interaction. Notably, our dataset offers key advancement over existing datasets in three main aspects: (1) capturing 3D body and dexterous hand manipulation motion alongside 3D object movement within a contextual home environment during natural activities; (2) encompassing human interaction with multiple objects in various episodic scenarios with corresponding descriptions in texts; (3) including articulated objects with multiple parts expressed with parameterized articulations. Building upon our dataset, we introduce new research tasks aimed at building a generative model for learning and synthesizing human-object interactions in a real-world room setting.

arxiv情報

著者 Jeonghwan Kim,Jisoo Kim,Jeonghyeon Na,Hanbyul Joo
発行日 2024-01-18 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク