要約
タイトル:FLAG3D:言語的指示を伴う3Dフィットネス活動データセット
要約:
– フィットネスアクティビティの分析は世界的に人気が高まっており、コンピュータビジョンの新しいタスクやアルゴリズムが提案されている。しかし、高品質のデータリソース、細かいラベル、多様な環境に関するデータが必要とされている。
– 本研究では、60のカテゴリにわたる180,000のシーケンスを含む大規模な3DフィットネスアクティビティデータセットであるFLAG3Dを提案する。FLAG3Dは、次の3つの特徴を備えている。
    1. 複雑なアクティビティと大きな動きを扱うために高度なMoCapシステムから捕捉された正確で密な3D人間ポーズ
    2. 特定のアクティビティの実行方法を説明する詳細で専門的な言語指示
    3. 自然環境での高度なMoCapシステム、レンダリングソフトウェア、およびコスト効果の高いスマートフォンからなる多目的なビデオリソース
– 幅広い実験と深い分析により、FLAG3Dは、クロスドメインの人間のアクション認識、動的な人間メッシュ回復、および言語による人間アクション生成などのさまざまな課題に大きな研究価値を提供していることが示されている。データセットとソースコードは公開されている。
要約(オリジナル)
With the continuously thriving popularity around the world, fitness activity analytic has become an emerging research topic in computer vision. While a variety of new tasks and algorithms have been proposed recently, there are growing hunger for data resources involved in high-quality data, fine-grained labels, and diverse environments. In this paper, we present FLAG3D, a large-scale 3D fitness activity dataset with language instruction containing 180K sequences of 60 categories. FLAG3D features the following three aspects: 1) accurate and dense 3D human pose captured from advanced MoCap system to handle the complex activity and large movement, 2) detailed and professional language instruction to describe how to perform a specific activity, 3) versatile video resources from a high-tech MoCap system, rendering software, and cost-effective smartphones in natural environments. Extensive experiments and in-depth analysis show that FLAG3D contributes great research value for various challenges, such as cross-domain human action recognition, dynamic human mesh recovery, and language-guided human action generation. Our dataset and source code are publicly available at https://andytang15.github.io/FLAG3D.
arxiv情報
| 著者 | Yansong Tang,Jinpeng Liu,Aoyang Liu,Bin Yang,Wenxun Dai,Yongming Rao,Jiwen Lu,Jie Zhou,Xiu Li | 
| 発行日 | 2023-04-19 13:31:03+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
