要約
この時代における大規模言語モデルとテキストから画像へのモデルの成功は、大規模データセットの原動力によるものと考えられます。
ただし、3D ビジョンの領域では、Objaverse や MVImgNet などの大規模な合成および実際にキャプチャされたオブジェクト データでトレーニングされたモデルで顕著な進歩が見られましたが、人間中心の領域では同様のレベルの進歩は観察されていません。
大規模な人間のデータセットが不足していることが部分的に原因です。
高忠実度 3D 人物キャプチャの既存のデータセットは、大規模で高品質の 3D 人物データを取得する際に大きな課題があるため、引き続き中規模です。
このギャップを埋めるために、4,500 の人間のアイデンティティのマルチビューの人間の行動シーケンスで構成されるデータセットである MVHumanNet を紹介します。
私たちの仕事の主な焦点は、簡単に拡張可能なデータ収集を容易にするマルチビュー ヒューマン キャプチャ システムを使用して、多数の多様なアイデンティティや日常の服装を特徴とする人間のデータを収集することです。
当社のデータセットには、9,000 の毎日の衣装、60,000 のモーション シーケンス、および人間のマスク、カメラ パラメーター、2D および 3D キーポイント、SMPL/SMPLX パラメーター、および対応するテキスト説明を含む広範な注釈が付いた 6 億 4,500 万のフレームが含まれています。
さまざまな 2D および 3D 視覚タスクにおける MVHumanNet の可能性を探るため、ビュー一貫性のあるアクション認識、人間の NeRF 再構成、テキスト駆動のビュー制約のない人間の画像生成、および 2D ビューの制約のない人間の画像と 3D に関するパイロットスタディを実施しました。
アバターの生成。
広範な実験により、MVHumanNet が提供するスケールによって実現されるパフォーマンスの向上と効果的なアプリケーションが実証されています。
現在最大規模の 3D ヒューマン データセットとして、注釈付きの MVHumanNet データのリリースにより、大規模な 3D 人間中心タスクの領域でさらなるイノベーションが促進されることを期待しています。
要約(オリジナル)
In this era, the success of large language models and text-to-image models can be attributed to the driving force of large-scale datasets. However, in the realm of 3D vision, while remarkable progress has been made with models trained on large-scale synthetic and real-captured object data like Objaverse and MVImgNet, a similar level of progress has not been observed in the domain of human-centric tasks partially due to the lack of a large-scale human dataset. Existing datasets of high-fidelity 3D human capture continue to be mid-sized due to the significant challenges in acquiring large-scale high-quality 3D human data. To bridge this gap, we present MVHumanNet, a dataset that comprises multi-view human action sequences of 4,500 human identities. The primary focus of our work is on collecting human data that features a large number of diverse identities and everyday clothing using a multi-view human capture system, which facilitates easily scalable data collection. Our dataset contains 9,000 daily outfits, 60,000 motion sequences and 645 million frames with extensive annotations, including human masks, camera parameters, 2D and 3D keypoints, SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot studies on view-consistent action recognition, human NeRF reconstruction, text-driven view-unconstrained human image generation, as well as 2D view-unconstrained human image and 3D avatar generation. Extensive experiments demonstrate the performance improvements and effective applications enabled by the scale provided by MVHumanNet. As the current largest-scale 3D human dataset, we hope that the release of MVHumanNet data with annotations will foster further innovations in the domain of 3D human-centric tasks at scale.
arxiv情報
著者 | Zhangyang Xiong,Chenghong Li,Kenkun Liu,Hongjie Liao,Jianqiao Hu,Junyi Zhu,Shuliang Ning,Lingteng Qiu,Chongjie Wang,Shijie Wang,Shuguang Cui,Xiaoguang Han |
発行日 | 2023-12-05 18:50:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google