Explaining, Analyzing, and Probing Representations of Self-Supervised Learning Models for Sensor-based Human Activity Recognition

要約

近年、データ注釈なしで深い表現を学習するために、自己教師あり学習 (SSL) フレームワークがセンサーベースの人間活動認識 (HAR) に広く適用されています。
SSL フレームワークは教師ありモデルとほぼ同等のパフォーマンスに達しますが、SSL モデルによって学習された表現の解釈に関する研究は限られています。
それにもかかわらず、最新の説明可能性手法は、SSL と教師付き表現の違い、つまり、SSL がどのように学習されるのか、入力データのどのようなプロパティが保持されるのか、教師付きトレーニングではなく SSL が選択されるのはいつかなどを解明するのに役立つ可能性があります。
このペーパーでは、SimCLR と VICReg という 2 つの最近の SSL フレームワークの詳細な表現を分析することを目的としています。
具体的には、(i) 入力データの破損に対する教師ありモデルと SSL モデルの堅牢性を比較することに重点が置かれています。
(ii) 顕著性マップを使用した深層学習モデルの予測を説明し、さまざまなアクティビティを予測するためにどの入力チャネルが主に使用されるかを強調します。
(iii) プローブを使用して、SSL でエンコードされたプロパティと監視された表現を探索します。
2 つの単一デバイス データセット (MobiAct と UCI-HAR) に対する広範な実験により、自己教師あり学習表現は、教師ありモデルと比較して、目に見えないデータのノイズに対して大幅に堅牢であることが示されました。
対照的に、教師ありアプローチによって学習された特徴は、被験者間でより均一であり、活動の性質をよりよくエンコードしています。

要約(オリジナル)

In recent years, self-supervised learning (SSL) frameworks have been extensively applied to sensor-based Human Activity Recognition (HAR) in order to learn deep representations without data annotations. While SSL frameworks reach performance almost comparable to supervised models, studies on interpreting representations learnt by SSL models are limited. Nevertheless, modern explainability methods could help to unravel the differences between SSL and supervised representations: how they are being learnt, what properties of input data they preserve, and when SSL can be chosen over supervised training. In this paper, we aim to analyze deep representations of two recent SSL frameworks, namely SimCLR and VICReg. Specifically, the emphasis is made on (i) comparing the robustness of supervised and SSL models to corruptions in input data; (ii) explaining predictions of deep learning models using saliency maps and highlighting what input channels are mostly used for predicting various activities; (iii) exploring properties encoded in SSL and supervised representations using probing. Extensive experiments on two single-device datasets (MobiAct and UCI-HAR) have shown that self-supervised learning representations are significantly more robust to noise in unseen data compared to supervised models. In contrast, features learnt by the supervised approaches are more homogeneous across subjects and better encode the nature of activities.

arxiv情報

著者 Bulat Khaertdinov,Stylianos Asteriadis
発行日 2023-07-31 15:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, eess.SP パーマリンク