C3T: Cross-modal Transfer Through Time for Human Action Recognition

要約

多様なセンサーの可能性を解き放つために、人間行動認識 (HAR) のための統合されたマルチモーダル表現空間の構造を使用して、モダリティ間で知識を伝達する方法を研究します。
私たちは、教師なしモダリティ適応 (UMA) と呼ぶ、十分に研究されていないクロスモーダル転送設定を形式化して探索します。この設定では、テストで使用されるモダリティは教師ありトレーニングでは使用されません。つまり、テスト モダリティのラベル付きインスタンスはトレーニング中に利用できません。
私たちは、UMA を実行するための 3 つの方法、すなわち Student-Teacher (ST)、Contrastive Alignment (CA)、および Cross-modal Transfer Through Time (C3T) を開発しています。
さまざまなカメラ + IMU データセットに対する広範な実験により、これらの手法を UMA 設定で相互に比較し、教師あり設定での経験的な上限と比較しました。
結果は、C3T が最も堅牢で、少なくとも 8% のマージンで最高のパフォーマンスを発揮し、一時的なノイズが存在する場合でも教師あり設定のパフォーマンスに近いことを示しています。
この方法では、時間畳み込みの受容野から抽出された、時間とともに変化する潜在ベクトル全体にわたって信号を整列させるための新しいメカニズムが導入されています。
私たちの調査結果は、C3T が時系列センサー データの一般化可能なモデルを開発する大きな可能性を秘めており、さまざまなアプリケーションでマルチモーダル学習の新たな道を開くことを示唆しています。

要約(オリジナル)

In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between modalities using the structure of a unified multimodal representation space for Human Action Recognition (HAR). We formalize and explore an understudied cross-modal transfer setting we term Unsupervised Modality Adaptation (UMA), where the modality used in testing is not used in supervised training, i.e. zero labeled instances of the test modality are available during training. We develop three methods to perform UMA: Student-Teacher (ST), Contrastive Alignment (CA), and Cross-modal Transfer Through Time (C3T). Our extensive experiments on various camera+IMU datasets compare these methods to each other in the UMA setting, and to their empirical upper bound in the supervised setting. The results indicate C3T is the most robust and highest performing by at least a margin of 8%, and nears the supervised setting performance even in the presence of temporal noise. This method introduces a novel mechanism for aligning signals across time-varying latent vectors, extracted from the receptive field of temporal convolutions. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for multi-modal learning in various applications.

arxiv情報

著者 Abhi Kamboj,Anh Duy Nguyen,Minh Do
発行日 2024-11-07 17:10:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, eess.SP パーマリンク