Towards Balanced Continual Multi-Modal Learning in Human Pose Estimation

要約

3D 人間姿勢推定 (3D HPE) は、特に RGB ベースの手法の分野で顕著な研究トピックとして浮上しています。
ただし、RGB 画像は、照明条件に対する感度やユーザーに不快感を与える可能性などの制限を受けやすいです。
その結果、非侵入型センサーを活用するマルチモーダル センシングへの注目が高まっています。
それにもかかわらず、マルチモーダル 3D HPE は、モダリティの不均衡や継続的な学習の必須性などの課題に依然として直面しています。
この研究では、RGB、LiDAR、ミリ波、WiFi の力を活用する、3D HPE 用の新しいバランスの取れた継続的なマルチモーダル学習方法を導入します。
具体的には、各モダリティの寄与を定量化し、モダリティの不均衡を特定するために、Shapley 値ベースの寄与アルゴリズムを提案します。
この不均衡に対処するために、私たちは再学習戦略を採用しています。
さらに、生データはノイズ汚染されやすいことを認識し、新しいノイズ除去継続学習アプローチを開発しました。
このアプローチには、ノイズの悪影響を軽減するノイズ識別および分離モジュールが組み込まれており、バランスの取れた学習戦略と連携して最適化を強化します。
さらに、致命的な物忘れを軽減するために、適応型 EWC メカニズムが採用されています。
私たちは、広く採用されているマルチモーダル データセット MM-Fi で広範な実験を実施し、3D 姿勢推定を向上させ、複雑なシナリオにおける致命的な忘却を軽減する点で、私たちのアプローチの優位性を実証しています。
コードを公開します。

要約(オリジナル)

3D human pose estimation (3D HPE) has emerged as a prominent research topic, particularly in the realm of RGB-based methods. However, RGB images are susceptible to limitations such as sensitivity to lighting conditions and potential user discomfort. Consequently, multi-modal sensing, which leverages non-intrusive sensors, is gaining increasing attention. Nevertheless, multi-modal 3D HPE still faces challenges, including modality imbalance and the imperative for continual learning. In this work, we introduce a novel balanced continual multi-modal learning method for 3D HPE, which harnesses the power of RGB, LiDAR, mmWave, and WiFi. Specifically, we propose a Shapley value-based contribution algorithm to quantify the contribution of each modality and identify modality imbalance. To address this imbalance, we employ a re-learning strategy. Furthermore, recognizing that raw data is prone to noise contamination, we develop a novel denoising continual learning approach. This approach incorporates a noise identification and separation module to mitigate the adverse effects of noise and collaborates with the balanced learning strategy to enhance optimization. Additionally, an adaptive EWC mechanism is employed to alleviate catastrophic forgetting. We conduct extensive experiments on the widely-adopted multi-modal dataset, MM-Fi, which demonstrate the superiority of our approach in boosting 3D pose estimation and mitigating catastrophic forgetting in complex scenarios. We will release our codes.

arxiv情報

著者 Jiaxuan Peng,Mengshi Qi,Dong Zhao,Huadong Ma
発行日 2025-01-09 14:19:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク