要約
エゴセントリックビデオベースのモデルは、豊富なセマンティック情報をキャプチャし、人間の活動認識(HAR)で強力なパフォーマンスを実証しています。
ただし、高出力消費、プライバシーの懸念、照明条件への依存により、継続的なオンデバイス認識の実現可能性が制限されます。
対照的に、慣性測定ユニット(IMU)センサーは、エネルギー効率が高くプライバシーに基づいた代替品を提供しますが、それらは限られた大規模な注釈付きデータセットに苦しんでおり、下流タスクの一般化が弱くなっています。
このギャップを埋めるために、ラベル付きの注釈を必要とせずにビデオモダリティからIMUモダリティに豊富なセマンティック知識を転送するクロスモーダルの自己監視された蒸留フレームワークであるComodoを提案します。
Comodoは、動的なインスタンスキューを構築して、ビデオとIMUの埋め込みの機能分布を整列させて、動的なインスタンスキューを構築するために、前処理された凍結ビデオエンコーダーを活用します。
ビデオ表現から知識を蒸留することにより、私たちのアプローチにより、IMUエンコーダーは、実際のアプリケーションの効率を維持しながら、ビデオから豊富なセマンティック情報を継承することができます。
複数のエゴセントリックHARデータセットの実験は、COMODOが一貫してダウンストリーム分類パフォーマンスを改善し、完全に監視された微調整モデルに匹敵する、またはそれを超える結果を達成することを示しています。
さらに、Comodoは強力なクロスダタセットの一般化を示しています。
そのシンプルさの恩恵を受けて、私たちの方法は一般に、さまざまなビデオおよびタイムシリーズの事前訓練モデルにも適用でき、将来の研究でより強力な教師と学生の基礎モデルを活用する可能性を提供します。
このコードは、https://github.com/breezelled/comodoで入手できます。
要約(オリジナル)
Egocentric video-based models capture rich semantic information and have demonstrated strong performance in human activity recognition (HAR). However, their high power consumption, privacy concerns, and dependence on lighting conditions limit their feasibility for continuous on-device recognition. In contrast, inertial measurement unit (IMU) sensors offer an energy-efficient and privacy-preserving alternative, yet they suffer from limited large-scale annotated datasets, leading to weaker generalization in downstream tasks. To bridge this gap, we propose COMODO, a cross-modal self-supervised distillation framework that transfers rich semantic knowledge from the video modality to the IMU modality without requiring labeled annotations. COMODO leverages a pretrained and frozen video encoder to construct a dynamic instance queue, aligning the feature distributions of video and IMU embeddings. By distilling knowledge from video representations, our approach enables the IMU encoder to inherit rich semantic information from video while preserving its efficiency for real-world applications. Experiments on multiple egocentric HAR datasets demonstrate that COMODO consistently improves downstream classification performance, achieving results comparable to or exceeding fully supervised fine-tuned models. Moreover, COMODO exhibits strong cross-dataset generalization. Benefiting from its simplicity, our method is also generally applicable to various video and time-series pre-trained models, offering the potential to leverage more powerful teacher and student foundation models in future research. The code is available at https://github.com/Breezelled/COMODO .
arxiv情報
著者 | Baiyu Chen,Wilson Wongso,Zechen Li,Yonchanok Khaokaew,Hao Xue,Flora Salim |
発行日 | 2025-03-10 12:43:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google