Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding

要約

教師なし事前学習は、近年スケルトンに基づく行動理解において大きな成功を収めている。既存の研究では、通常、モダリティに特化したモデルを個別に学習し、その後、後期融合戦略によって行動理解のためのマルチモダルの情報を統合する。これらのアプローチは大きな性能を達成しているが、複雑でありながら冗長なマルチストリームモデル設計に悩まされており、各モデルも固定入力スケルトンモダリティに制限されている。これらの問題を軽減するために、本論文では、UmURLと呼ばれる統合マルチモーダル教師なし表現学習フレームワークを提案する。具体的には、単一モダルの教師なし学習のために、モダリティに特化した最適化プロセスを個別に設計する代わりに、モデルの複雑さを軽減するために、異なるモダリティ入力を、マルチモダルの特徴を学習するための早期融合戦略を用いて同じストリームに供給する。融合されたマルチモーダル特徴が、モダリティの偏り、すなわち特定のモダリティ入力に支配されないことを保証するために、我々はさらに、特徴分解と明確な整列により、マルチモーダル特徴が各モーダルの完全なセマンティクスを含むことを保証するために、モーダル内とモーダル間の整合性学習を提案する。このようにして、本フレームワークは、実用的なケースにおいて頑健な行動理解のために、異なる種類のモダリティ入力に対して柔軟な、単一モダリティまたは複数モダリティのスケルトン入力の統一的表現を学習することができる。NTU-60、NTU-120、PKU-MMD IIの3つの大規模データセットを用いた広範な実験により、UmURLが非常に効率的であり、単一モダルの手法とほぼ同等の複雑性を持ちながら、スケルトンに基づく行動表現学習において、様々な下流タスクシナリオで最先端の性能を達成することが実証された。

要約(オリジナル)

Unsupervised pre-training has shown great success in skeleton-based action understanding recently. Existing works typically train separate modality-specific models, then integrate the multi-modal information for action understanding by a late-fusion strategy. Although these approaches have achieved significant performance, they suffer from the complex yet redundant multi-stream model designs, each of which is also limited to the fixed input skeleton modality. To alleviate these issues, in this paper, we propose a Unified Multimodal Unsupervised Representation Learning framework, called UmURL, which exploits an efficient early-fusion strategy to jointly encode the multi-modal features in a single-stream manner. Specifically, instead of designing separate modality-specific optimization processes for uni-modal unsupervised learning, we feed different modality inputs into the same stream with an early-fusion strategy to learn their multi-modal features for reducing model complexity. To ensure that the fused multi-modal features do not exhibit modality bias, i.e., being dominated by a certain modality input, we further propose both intra- and inter-modal consistency learning to guarantee that the multi-modal features contain the complete semantics of each modal via feature decomposition and distinct alignment. In this manner, our framework is able to learn the unified representations of uni-modal or multi-modal skeleton input, which is flexible to different kinds of modality input for robust action understanding in practical cases. Extensive experiments conducted on three large-scale datasets, i.e., NTU-60, NTU-120, and PKU-MMD II, demonstrate that UmURL is highly efficient, possessing the approximate complexity with the uni-modal methods, while achieving new state-of-the-art performance across various downstream task scenarios in skeleton-based action representation learning.

arxiv情報

著者 Shengkai Sun,Daizong Liu,Jianfeng Dong,Xiaoye Qu,Junyu Gao,Xun Yang,Xun Wang,Meng Wang
発行日 2023-11-06 13:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク