MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion

要約

自己教師あり学習は、骨格に基づいた人間の行動の理解に効果的であることが証明されています。
しかし、これまでの研究は、偽陰性の問題に悩まされる対比学習に依存しているか、あまりにも重要でない低レベルの手がかりを学習する再構成に基づいており、下流のタスクの表現が制限されてしまいます。
最近、生成学習が大幅に進歩しました。生成学習は、当然のことながら、基礎となる一般的なデータ分布をモデル化するための、挑戦的ではありますが、意味のある口実タスクです。
しかし、生成モデルの表現学習能力は、特に空間的疎性と時間的冗長性を持つスケルトンについては十分に研究されていません。
この目的を達成するために、人間の骨格モデリングの統一フレームワークとしてマスク条件付き拡散 (MacDiff) を提案します。
初めて、効果的なスケルトン表現学習器として拡散モデルを活用します。
具体的には、セマンティック エンコーダによって抽出された表現に基づいて拡散デコーダをトレーニングします。
情報ボトルネックを導入し、スケルトンの冗長性を除去するために、エンコーダー入力にランダム マスキングが適用されます。
さらに、私たちの生成目標には、マスクされたビューとノイズのあるビューを調整する対照的な学習目標が含まれていることを理論的に示します。
一方で、ノイズの多いビューを補完する表現も強制的に実行されるため、汎化パフォーマンスの向上につながります。
MacDiff は、生成タスクの能力を維持しながら、表現学習ベンチマークで最先端のパフォーマンスを達成します。
さらに、データ拡張に拡散モデルを活用し、ラベル付きデータが少ないシナリオでの微調整パフォーマンスを大幅に強化します。
私たちのプロジェクトは https://lehongwu.github.io/ECCV24MacDiff/ で入手できます。

要約(オリジナル)

Self-supervised learning has proved effective for skeleton-based human action understanding. However, previous works either rely on contrastive learning that suffers false negative problems or are based on reconstruction that learns too much unessential low-level clues, leading to limited representations for downstream tasks. Recently, great advances have been made in generative learning, which is naturally a challenging yet meaningful pretext task to model the general underlying data distributions. However, the representation learning capacity of generative models is under-explored, especially for the skeletons with spacial sparsity and temporal redundancy. To this end, we propose Masked Conditional Diffusion (MacDiff) as a unified framework for human skeleton modeling. For the first time, we leverage diffusion models as effective skeleton representation learners. Specifically, we train a diffusion decoder conditioned on the representations extracted by a semantic encoder. Random masking is applied to encoder inputs to introduce a information bottleneck and remove redundancy of skeletons. Furthermore, we theoretically demonstrate that our generative objective involves the contrastive learning objective which aligns the masked and noisy views. Meanwhile, it also enforces the representation to complement for the noisy view, leading to better generalization performance. MacDiff achieves state-of-the-art performance on representation learning benchmarks while maintaining the competence for generative tasks. Moreover, we leverage the diffusion model for data augmentation, significantly enhancing the fine-tuning performance in scenarios with scarce labeled data. Our project is available at https://lehongwu.github.io/ECCV24MacDiff/.

arxiv情報

著者 Lehong Wu,Lilang Lin,Jiahang Zhang,Yiyang Ma,Jiaying Liu
発行日 2024-09-16 17:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク