要約
3D アクション認識では、スケルトン モダリティ間に豊富な補足情報が存在します。
それにもかかわらず、この情報をモデル化して利用する方法は、自己教師あり 3D アクション表現学習にとって依然として困難な問題です。
この作業では、クロスモーダル相互作用を双方向の知識蒸留問題として定式化します。
固定された事前訓練を受けた教師の知識を学生に伝える従来の蒸留ソリューションとは異なり、この作業では、知識は継続的に更新され、モダリティ間で双方向に蒸留されます。
この目的のために、次の設計を持つ新しいクロスモーダル相互蒸留 (CMD) フレームワークを提案します。
一方では、隣接する類似度分布を導入して、各モダリティで学習した知識をモデル化します。この場合、関係情報は対照的なフレームワークに自然に適しています。
一方、非対称構成は、蒸留プロセスを安定させ、モダリティ間で信頼性の高い情報を転送するために、教師と生徒に使用されます。
導出により、以前の研究におけるクロスモーダル ポジティブ マイニングは、CMD の縮退バージョンと見なすことができることがわかりました。
NTU RGB+D 60、NTU RGB+D 120、および PKU-MMD II データセットで広範な実験を行います。
私たちのアプローチは、既存の自己管理型の方法よりも優れており、一連の新しい記録を打ち立てています。
コードは https://github.com/maoyunyao/CMD で入手できます。
要約(オリジナル)
In 3D action recognition, there exists rich complementary information between skeleton modalities. Nevertheless, how to model and utilize this information remains a challenging problem for self-supervised 3D action representation learning. In this work, we formulate the cross-modal interaction as a bidirectional knowledge distillation problem. Different from classic distillation solutions that transfer the knowledge of a fixed and pre-trained teacher to the student, in this work, the knowledge is continuously updated and bidirectionally distilled between modalities. To this end, we propose a new Cross-modal Mutual Distillation (CMD) framework with the following designs. On the one hand, the neighboring similarity distribution is introduced to model the knowledge learned in each modality, where the relational information is naturally suitable for the contrastive frameworks. On the other hand, asymmetrical configurations are used for teacher and student to stabilize the distillation process and to transfer high-confidence information between modalities. By derivation, we find that the cross-modal positive mining in previous works can be regarded as a degenerated version of our CMD. We perform extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD II datasets. Our approach outperforms existing self-supervised methods and sets a series of new records. The code is available at: https://github.com/maoyunyao/CMD
arxiv情報
著者 | Yunyao Mao,Wengang Zhou,Zhenbo Lu,Jiajun Deng,Houqiang Li |
発行日 | 2022-08-26 06:06:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google