TDSM: Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition

要約

まず、スケルトン入力のゼロショット学習による拡散ベースの行動認識を紹介します。
ゼロショット スケルトン ベースのアクション認識では、目に見えないアクションを正確に予測するには、スケルトンの特徴とアクション ラベルのテキストの特徴を一致させることが不可欠です。
これまでの手法は、スケルトンとテキストの潜在空間間の直接的な位置合わせに焦点を当てていましたが、これらの空間間のモダリティのギャップにより、堅牢な汎化学習が妨げられました。
テキストから画像への拡散モデルの優れたパフォーマンスに基づいて、私たちは主に、その生成力を使用するのではなく、逆拡散中のトレーニング プロセスに焦点を当て、異なるモダリティ間のその調整機能を活用します。
これに基づいて、私たちのフレームワークは、逆拡散を通じてスケルトン フィーチャとテキスト プロンプトを位置合わせし、プロンプトを統合されたスケルトン テキスト潜在空間に埋め込んで堅牢なマッチングを実現する、スケルトン テキスト マッチングのためのトリプレット拡散 (TDSM) メソッドとして設計されています。
識別力を強化するために、TDSM が誤ったものを押しのけながらスケルトンとテキストの一致を修正することを促進する新しいトリプレット拡散 (TD) 損失を導入します。
当社の TDSM は、2.36% ポイントから 13.05% ポイントの大きなマージンで、ごく最近の最先端の手法を大幅に上回り、効果的なスケルトン テキスト マッチングを通じてゼロショット設定での優れた精度とスケーラビリティを実証しています。

要約(オリジナル)

We firstly present a diffusion-based action recognition with zero-shot learning for skeleton inputs. In zero-shot skeleton-based action recognition, aligning skeleton features with the text features of action labels is essential for accurately predicting unseen actions. Previous methods focus on direct alignment between skeleton and text latent spaces, but the modality gaps between these spaces hinder robust generalization learning. Motivated from the remarkable performance of text-to-image diffusion models, we leverage their alignment capabilities between different modalities mostly by focusing on the training process during reverse diffusion rather than using their generative power. Based on this, our framework is designed as a Triplet Diffusion for Skeleton-Text Matching (TDSM) method which aligns skeleton features with text prompts through reverse diffusion, embedding the prompts into the unified skeleton-text latent space to achieve robust matching. To enhance discriminative power, we introduce a novel triplet diffusion (TD) loss that encourages our TDSM to correct skeleton-text matches while pushing apart incorrect ones. Our TDSM significantly outperforms the very recent state-of-the-art methods with large margins of 2.36%-point to 13.05%-point, demonstrating superior accuracy and scalability in zero-shot settings through effective skeleton-text matching.

arxiv情報

著者 Jeonghyeok Do,Munchurl Kim
発行日 2024-11-22 15:49:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク