Headset: Human emotion awareness under partial occlusions multimodal dataset

要約

人間のインタラクションのボリューム表現は、没入型メディア制作および通信アプリケーションの開発における基本的な領域の 1 つです。
特に拡張現実 (XR) アプリケーションの急速な進歩の文脈では、この体積データは将来の XR の精緻化に不可欠なテクノロジーであることが証明されています。
この研究では、没入型テクノロジーの開発を促進するための新しいマルチモーダル データベースを紹介します。
私たちが提案するデータベースは、倫理に準拠した多様な体積データ、特に会話中にポーズをとった表情や微妙な体の動きを示す 27 人の参加者と、ヘッドマウント ディスプレイ (HMD) を装着した 11 人の参加者を提供します。
レコーディング システムは、62 台の RGB カメラと 31 台の深度カメラを備えた 31 個の同期モジュールを含むボリューム キャプチャ (VoCap) スタジオで構成されます。
テクスチャ メッシュ、点群、マルチビュー RGB-D データに加えて、ライト フィールド (LF) データを同時に提供するために 1 台の Lytro Illum カメラを使用します。
最後に、顔の表情の分類、HMD の削除、点群の再構成のタスクに関するデータセットの使用の評価も提供します。
このデータセットは、顔の表情の認識と再構成、顔の再現、ボリュメトリック ビデオを含むがこれらに限定されない、さまざまな XR アルゴリズムの評価とパフォーマンス テストに役立ちます。
HEADSET とそれに関連するすべての生データおよびライセンス契約は、研究目的で一般公開されます。

要約(オリジナル)

The volumetric representation of human interactions is one of the fundamental domains in the development of immersive media productions and telecommunication applications. Particularly in the context of the rapid advancement of Extended Reality (XR) applications, this volumetric data has proven to be an essential technology for future XR elaboration. In this work, we present a new multimodal database to help advance the development of immersive technologies. Our proposed database provides ethically compliant and diverse volumetric data, in particular 27 participants displaying posed facial expressions and subtle body movements while speaking, plus 11 participants wearing head-mounted displays (HMDs). The recording system consists of a volumetric capture (VoCap) studio, including 31 synchronized modules with 62 RGB cameras and 31 depth cameras. In addition to textured meshes, point clouds, and multi-view RGB-D data, we use one Lytro Illum camera for providing light field (LF) data simultaneously. Finally, we also provide an evaluation of our dataset employment with regard to the tasks of facial expression classification, HMDs removal, and point cloud reconstruction. The dataset can be helpful in the evaluation and performance testing of various XR algorithms, including but not limited to facial expression recognition and reconstruction, facial reenactment, and volumetric video. HEADSET and its all associated raw data and license agreement will be publicly available for research purposes.

arxiv情報

著者 Fatemeh Ghorbani Lohesara,Davi Rabbouni Freitas,Christine Guillemot,Karen Eguiazarian,Sebastian Knorr
発行日 2024-02-14 11:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク