要約
複数人のシーンを完全に理解するには、検出や追跡などの基本的なタスクを超えることが不可欠です。
個人間の相互作用や社会活動を理解するなど、より高度なタスクも重要です。
複数の人々が関与するシーンを完全に理解できるモデルへの進歩は、そのような高レベルのタスクに十分な注釈付きデータの欠如によって妨げられています。
この課題に対処するために、複数人の人間のモーション データを対象とした、シンプルかつ効果的なトランスフォーマー ベースのマスクされたオートエンコーダー フレームワークである Social-MAE を導入します。
このフレームワークは、マスクされたモデリングを使用して、マスクされた人間の関節の軌道を再構築するエンコーダーを事前トレーニングし、人間が密集したシーンにおける動きの一般化可能でデータ効率の高い表現を学習できるようにします。
Social-MAE は、MAE エンコーダとしてのトランスフォーマーと、周波数領域での複数人の関節の軌道で動作する MAE デコーダーとしての軽量トランスで構成されます。
再構成タスクの後、MAE デコーダーはタスク固有のデコーダーに置き換えられ、モデルはさまざまな高レベルの社会的タスクに合わせてエンドツーエンドで微調整されます。
私たちが提案したモデルと事前トレーニングアプローチを組み合わせることで、複数人の姿勢予測、社会的グループ化、社会的行動の理解など、さまざまな高レベルの社会的タスクに関して最先端の結果が得られます。
これらの改善は、人間の 2D と 3D の体のポーズの両方を含む 4 つの一般的な複数人データセットにわたって実証されています。
要約(オリジナル)
For a complete comprehension of multi-person scenes, it is essential to go beyond basic tasks like detection and tracking. Higher-level tasks, such as understanding the interactions and social activities among individuals, are also crucial. Progress towards models that can fully understand scenes involving multiple people is hindered by a lack of sufficient annotated data for such high-level tasks. To address this challenge, we introduce Social-MAE, a simple yet effective transformer-based masked autoencoder framework for multi-person human motion data. The framework uses masked modeling to pre-train the encoder to reconstruct masked human joint trajectories, enabling it to learn generalizable and data efficient representations of motion in human crowded scenes. Social-MAE comprises a transformer as the MAE encoder and a lighter-weight transformer as the MAE decoder which operates on multi-person joints’ trajectory in the frequency domain. After the reconstruction task, the MAE decoder is replaced with a task-specific decoder and the model is fine-tuned end-to-end for a variety of high-level social tasks. Our proposed model combined with our pre-training approach achieves the state-of-the-art results on various high-level social tasks, including multi-person pose forecasting, social grouping, and social action understanding. These improvements are demonstrated across four popular multi-person datasets encompassing both human 2D and 3D body pose.
arxiv情報
著者 | Mahsa Ehsanpour,Ian Reid,Hamid Rezatofighi |
発行日 | 2024-04-08 14:54:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google