要約
自己教師あり学習 (SSL) は、データの固有の構造を利用して学習プロセスをガイドするデータ駆動型の学習アプローチです。
外部ラベルに依存する教師あり学習とは対照的に、SSL はデータ固有の特性を利用して独自の監視信号を生成します。
ただし、SSL メソッドで頻繁に発生する問題の 1 つは、モデルが一定の入力不変の特徴表現を出力する表現の崩壊です。
表現の崩壊を回避しようとすることは研究者の時間と労力を無駄にするため、この問題は、新しいデータ モダリティへの SSL 手法の潜在的な適用を妨げます。
この論文では、マスクされた潜在要素からの関数の予測 (PFML) と呼ばれる時系列データ用の新しい SSL アルゴリズムを紹介します。
PFML は、マスクされた入力信号またはその潜在表現を直接予測するのではなく、マスクされていないエンベディングのシーケンスが与えられた場合に、マスクされたエンベディングに対応する入力信号の統計関数を予測することによって動作します。
このアルゴリズムは表現の崩壊を回避するように設計されており、臨床データにおける新しいセンサー モダリティなど、さまざまな時系列データ ドメインに直接適用できるようになります。
私たちは、マルチセンサー慣性測定ユニットのデータからの幼児の姿勢と動作の分類、音声データからの感情認識、EEG データからの睡眠段階の分類という 3 つの異なるデータモダリティにわたる複雑な現実の分類タスクを通じて PFML の有効性を実証します。
結果は、PFML が概念的に類似した SSL 手法および対照的な学習ベースの SSL 手法よりも優れていることを示しています。
さらに、PFML は現在の最先端の SSL メソッドと同等であると同時に、概念的に単純で表現の崩壊に悩まされることもありません。
要約(オリジナル)
Self-supervised learning (SSL) is a data-driven learning approach that utilizes the innate structure of the data to guide the learning process. In contrast to supervised learning, which depends on external labels, SSL utilizes the inherent characteristics of the data to produce its own supervisory signal. However, one frequent issue with SSL methods is representation collapse, where the model outputs a constant input-invariant feature representation. This issue hinders the potential application of SSL methods to new data modalities, as trying to avoid representation collapse wastes researchers’ time and effort. This paper introduces a novel SSL algorithm for time-series data called Prediction of Functionals from Masked Latents (PFML). Instead of predicting masked input signals or their latent representations directly, PFML operates by predicting statistical functionals of the input signal corresponding to masked embeddings, given a sequence of unmasked embeddings. The algorithm is designed to avoid representation collapse, rendering it straightforwardly applicable to different time-series data domains, such as novel sensor modalities in clinical data. We demonstrate the effectiveness of PFML through complex, real-life classification tasks across three different data modalities: infant posture and movement classification from multi-sensor inertial measurement unit data, emotion recognition from speech data, and sleep stage classification from EEG data. The results show that PFML is superior to a conceptually similar SSL method and a contrastive learning-based SSL method. Additionally, PFML is on par with the current state-of-the-art SSL method, while also being conceptually simpler and without suffering from representation collapse.
arxiv情報
著者 | Einari Vaaras,Manu Airaksinen,Okko Räsänen |
発行日 | 2025-01-09 16:22:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google