要約
我々は、ウェアラブルデータからマルチモーダル表現を学習するための新しいダイナミックで効果的な技術であるクロスモーダル・アテントリック・コネクションを提案する。我々のソリューションは、パイプラインのどの段階にも、すなわち、任意の畳み込み層やブロックの後に統合することができ、各モダリティの処理を担当する個々のストリーム間の中間接続を作成することが可能である。さらに、本手法は2つの特性を備えています。第一に、一方向(1つのモダリティから他のモダリティへ)または双方向に情報を共有することができる。第二に、複数のタッチポイントでネットワーク勾配を交換できるように、同時に複数のステージに統合することができる。我々は、WESAD、SWELL-KW、CASEという3つの公開マルチモーダルウェアラブルデータセットで大規模な実験を行い、我々の手法がより良い表現を学習するために異なるモダリティ間で効果的に情報を調整し共有できることを実証する。さらに、我々の実験では、CNNベースのマルチモーダルソリューション(2、3、または4モダリティ)に統合すると、我々の手法は、最先端技術に勝る、または競合する性能をもたらし、様々なベースラインのユニモーダルおよび従来のマルチモーダル手法を凌駕することができることを示している。
要約(オリジナル)
We propose cross-modal attentive connections, a new dynamic and effective technique for multimodal representation learning from wearable data. Our solution can be integrated into any stage of the pipeline, i.e., after any convolutional layer or block, to create intermediate connections between individual streams responsible for processing each modality. Additionally, our method benefits from two properties. First, it can share information uni-directionally (from one modality to the other) or bi-directionally. Second, it can be integrated into multiple stages at the same time to further allow network gradients to be exchanged in several touch-points. We perform extensive experiments on three public multimodal wearable datasets, WESAD, SWELL-KW, and CASE, and demonstrate that our method can effectively regulate and share information between different modalities to learn better representations. Our experiments further demonstrate that once integrated into simple CNN-based multimodal solutions (2, 3, or 4 modalities), our method can result in superior or competitive performance to state-of-the-art and outperform a variety of baseline uni-modal and classical multimodal methods.
arxiv情報
著者 | Anubhav Bhatti,Behnam Behinaein,Paul Hungler,Ali Etemad |
発行日 | 2022-06-09 17:18:33+00:00 |
arxivサイト | arxiv_id(pdf) |