PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision

要約

個人用デバイスに組み込まれた慣性測定ユニット (IMU) を通じて人間の動きを感知することで、健康とウェルネスにおける重要な応用が可能になりました。
ラベル付きの IMU データは希少ですが、ラベルなしまたは弱いラベルの付いた IMU データを収集して、人間の動作をモデル化することができます。
ビデオまたはテキスト モダリティの場合、「事前トレーニングと適応」アプローチでは、大量のラベルなしまたは弱くラベル付けされたデータを事前トレーニングに利用し、強力な特徴抽出機能を構築した後、限られたラベル付きデータを使用して特定のタスクに適応します。
このアプローチは、次の 2 つの理由により、IMU ドメインでは広く採用されていません。(1) IMU のコンテキストでは事前トレーニング方法があまり理解されていない、(2) データセット全体で一般化するオープンソースの事前トレーニング済みモデルが一般公開されることがほとんどありません。
この論文では、IMU エンコーダの PRetraining 方法である PRIMUS を提案することで、最初の問題に対処することを目的としています。
私たちは、さまざまな自己教師ありマルチモーダル学習の事前トレーニング目標の体系的かつ統一的な評価を実施します。
私たちの調査結果は、自己監視、マルチモーダル監視、最近傍監視を組み合わせた PRIMUS を使用すると、ダウンストリームのパフォーマンスを大幅に向上できることを示しています。
PRIMUS は、クラスごとにラベル付きサンプルが 500 個未満であるため、最先端のマルチモーダル トレーニング方法と比較して、保持されたテスト データでダウンストリームのパフォーマンスを最大 15% 効果的に向上させます。
より広範なコミュニティに利益をもたらすために、私たちのコードと事前トレーニングされた IMU エンコーダーは、公開と同時に github.com/nokia-bell-labs で公開されます。

要約(オリジナル)

Sensing human motions through Inertial Measurement Units (IMUs) embedded in personal devices has enabled significant applications in health and wellness. While labeled IMU data is scarce, we can collect unlabeled or weakly labeled IMU data to model human motions. For video or text modalities, the ‘pretrain and adapt’ approach utilizes large volumes of unlabeled or weakly labeled data for pretraining, building a strong feature extractor, followed by adaptation to specific tasks using limited labeled data. This approach has not been widely adopted in the IMU domain for two reasons: (1) pretraining methods are poorly understood in the context of IMU, and (2) open-source pretrained models that generalize across datasets are rarely publicly available. In this paper, we aim to address the first issue by proposing PRIMUS, a method for PRetraining IMU encoderS. We conduct a systematic and unified evaluation of various self-supervised and multimodal learning pretraining objectives. Our findings indicate that using PRIMUS, which combines self-supervision, multimodal supervision, and nearest-neighbor supervision, can significantly enhance downstream performance. With fewer than 500 labeled samples per class, PRIMUS effectively enhances downstream performance by up to 15% in held-out test data, compared to the state-of-the-art multimodal training method. To benefit the broader community, our code and pre-trained IMU encoders will be made publicly available at github.com/nokia-bell-labs upon publication.

arxiv情報

著者 Arnav M. Das,Chi Ian Tang,Fahim Kawsar,Mohammad Malekzadeh
発行日 2024-11-22 18:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク