要約
現代のスマートシティの発展に伴い、人間中心のビデオ分析は、現実の場面での多様で複雑なイベントを分析するという課題に直面しています。
複雑なイベントは、密集した群衆、異常な個人、または集団行動に関連しています。
しかし、既存のビデオ データセットの規模と対象範囲によって制限があり、このような複雑なイベントに対する人間による分析アプローチでそのパフォーマンスが報告された例はほとんどありません。
この目的を達成するために、さまざまなイベントにおける人間の動き、ポーズ、アクションを理解するために、Human-in-Events または HiEve (複雑なイベントにおける人間中心のビデオ分析) と名付けられた、包括的な注釈を備えた新しい大規模データセットを紹介します。
現実的なイベント、特に群衆や複雑なイベント。
これには、記録的な数のポーズ (>1M)、複雑なイベント下での最大数のアクション インスタンス (>56k)、および長時間続く最大数の軌跡 (平均軌跡の長さは >480 フレーム) が含まれています。
)。
その多様な注釈に基づいて、アクション認識と姿勢推定のための 2 つの単純なベースラインをそれぞれ提示します。
トレーニング中にラベル間の情報を活用して、対応する視覚タスクでの特徴学習を強化します。
実験では、既存の動作認識および姿勢推定パイプラインのパフォーマンスを向上させることができることが示されています。
さらに重要なのは、HiEve の広範囲にわたる注釈がさまざまなビデオ タスクを改善できることを証明したことです。
さらに、私たちはベースライン手法と合わせて最近のビデオ分析アプローチのベンチマークを行う広範な実験を実施し、HiEve が人間中心のビデオ分析にとって挑戦的なデータセットであることを実証しています。
このデータセットにより、人間中心の分析と複雑なイベントの理解における最先端の技術の開発が進むことが期待されます。
データセットは http://humaninevents.org で入手できます。
要約(オリジナル)
Along with the development of modern smart cities, human-centric video analysis has been encountering the challenge of analyzing diverse and complex events in real scenes. A complex event relates to dense crowds, anomalous individuals, or collective behaviors. However, limited by the scale and coverage of existing video datasets, few human analysis approaches have reported their performances on such complex events. To this end, we present a new large-scale dataset with comprehensive annotations, named Human-in-Events or HiEve (Human-centric video analysis in complex Events), for the understanding of human motions, poses, and actions in a variety of realistic events, especially in crowd & complex events. It contains a record number of poses (>1M), the largest number of action instances (>56k) under complex events, as well as one of the largest numbers of trajectories lasting for longer time (with an average trajectory length of >480 frames). Based on its diverse annotation, we present two simple baselines for action recognition and pose estimation, respectively. They leverage cross-label information during training to enhance the feature learning in corresponding visual tasks. Experiments show that they could boost the performance of existing action recognition and pose estimation pipelines. More importantly, they prove the widely ranged annotations in HiEve can improve various video tasks. Furthermore, we conduct extensive experiments to benchmark recent video analysis approaches together with our baseline methods, demonstrating HiEve is a challenging dataset for human-centric video analysis. We expect that the dataset will advance the development of cutting-edge techniques in human-centric analysis and the understanding of complex events. The dataset is available at http://humaninevents.org
arxiv情報
著者 | Weiyao Lin,Huabin Liu,Shizhan Liu,Yuxi Li,Rui Qian,Tao Wang,Ning Xu,Hongkai Xiong,Guo-Jun Qi,Nicu Sebe |
発行日 | 2023-07-13 13:23:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google