MA^2: A Self-Supervised and Motion Augmenting Autoencoder for Gait-Based Automatic Disease Detection

要約

地面反力 (GRF) は、地面と接触している物体に地面によって及ぼされる力です。
GRF ベースの自動疾患検出 (ADD) は、ディープラーニング手法に基づいて、さまざまな歩行圧力に対応する疾患パターンを学習して特定することを目的とした、新たな医療診断方法となっています。
既存の ADD 手法は医師の診断時間を節約できますが、ディープ モデルのトレーニングでは、被験者の多数の歩行診断データのラベリング エンジニアリングによって生じるコストに依然として悩まされています。
一方で、統合ベンチマーク GRF データセットに基づく深層モデルの精度と、スケーラブルな歩行データセットの一般化能力をさらに向上させる必要があります。
これらの問題に対処するために、我々は、エンコーダ-デコーダ パラダイムとして ADD タスクをモデル化する、GRF ベースの自己監視型モーション拡張オートエンコーダである MA2 を提案します。
エンコーダーでは、トークンを抽出するための 3 層 1D 畳み込みを含む埋め込みブロックと、トークンのシーケンスをランダムにマスクアウトするマスク ジェネレーターを導入して、高レベルで識別可能な固有の表現をキャプチャするモデルの可能性を最大化します。
その後、デコーダはこの情報を利用して原点入力のピクセル シーケンスを再構築し、再構築損失を計算してネットワークを最適化します。
さらに、自動エンコーダのバックボーンは、ローカル近傍だけでなく、入力からのトークンのグローバル情報を考慮できるマルチヘッドセルフアテンションです。
これにより、モデルは一般化されたコンテキスト情報を取得できるようになります。
広範な実験により、MA2 はラベル付きの 1% に限定された病理学的 GRF サンプルに対して 90.91% の精度の SOTA パフォーマンスと、スケーラブルなパーキンソン病データセットに対して 78.57% の精度という優れた汎化能力を備えていることが実証されています。

要約(オリジナル)

Ground reaction force (GRF) is the force exerted by the ground on a body in contact with it. GRF-based automatic disease detection (ADD) has become an emerging medical diagnosis method, which aims to learn and identify disease patterns corresponding to different gait pressures based on deep learning methods. Although existing ADD methods can save doctors time in making diagnoses, training deep models still struggles with the cost caused by the labeling engineering for a large number of gait diagnostic data for subjects. On the other hand, the accuracy of the deep model under the unified benchmark GRF dataset and the generalization ability on scalable gait datasets need to be further improved. To address these issues, we propose MA2, a GRF-based self-supervised and motion augmenting auto-encoder, which models the ADD task as an encoder-decoder paradigm. In the encoder, we introduce an embedding block including the 3-layer 1D convolution for extracting the token and a mask generator to randomly mask out the sequence of tokens to maximize the model’s potential to capture high-level, discriminative, intrinsic representations. whereafter, the decoder utilizes this information to reconstruct the pixel sequence of the origin input and calculate the reconstruction loss to optimize the network. Moreover, the backbone of an auto-encoder is multi-head self-attention that can consider the global information of the token from the input, not just the local neighborhood. This allows the model to capture generalized contextual information. Extensive experiments demonstrate MA2 has SOTA performance of 90.91% accuracy on 1% limited pathological GRF samples with labels, and good generalization ability of 78.57% accuracy on scalable Parkinson disease dataset.

arxiv情報

著者 Yiqun Liu,Ke Zhang,Yin Zhu
発行日 2024-11-05 14:21:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.bio-ph パーマリンク