3M-Health: Multimodal Multi-Teacher Knowledge Distillation for Mental Health Detection

要約

メンタルヘルス分類の重要性は、デジタルプラットフォームが個人の健康状態を監視するための重要な情報源として機能する現代社会において最も重要です。
ただし、既存のソーシャル メディアのメンタルヘルス データセットは主にテキストのみのサンプルで構成されており、そのようなデータに基づいてトレーニングされたモデルの有効性が制限される可能性があります。
人間は複雑な状況や問題を理解するためにクロスモーダル情報を利用していることを認識し、現在の方法論の限界に対処するための新しいアプローチを提案します。
この研究では、クロスモーダルな人間理解からの洞察を活用して、メンタルヘルス分類のためのマルチモーダルおよびマルチ教師の知識蒸留モデルを導入します。
多様な機能を統合するために単純な連結に依存することが多い従来のアプローチとは異なり、私たちのモデルは、さまざまな性質の入力 (テキストやサウンドなど) を適切に表現するという課題に取り組んでいます。
すべての機能を 1 つのモデルに統合することに伴う計算の複雑さを軽減するために、マルチモーダルおよびマルチ教師アーキテクチャを採用しています。
学習プロセスを複数の教師に分散し、各教師が特定の特徴抽出の側面に特化することで、全体的なメンタルヘルス分類のパフォーマンスが向上します。
実験的な検証を通じて、パフォーマンスの向上を達成する上でのモデルの有効性を実証します。
関連するすべてのコードは公開され次第利用可能になります。

要約(オリジナル)

The significance of mental health classification is paramount in contemporary society, where digital platforms serve as crucial sources for monitoring individuals’ well-being. However, existing social media mental health datasets primarily consist of text-only samples, potentially limiting the efficacy of models trained on such data. Recognising that humans utilise cross-modal information to comprehend complex situations or issues, we present a novel approach to address the limitations of current methodologies. In this work, we introduce a Multimodal and Multi-Teacher Knowledge Distillation model for Mental Health Classification, leveraging insights from cross-modal human understanding. Unlike conventional approaches that often rely on simple concatenation to integrate diverse features, our model addresses the challenge of appropriately representing inputs of varying natures (e.g., texts and sounds). To mitigate the computational complexity associated with integrating all features into a single model, we employ a multimodal and multi-teacher architecture. By distributing the learning process across multiple teachers, each specialising in a particular feature extraction aspect, we enhance the overall mental health classification performance. Through experimental validation, we demonstrate the efficacy of our model in achieving improved performance. All relevant codes will be made available upon publication.

arxiv情報

著者 Rina Carines Cabral,Siwen Luo,Soyeon Caren Han,Josiah Poon
発行日 2024-07-12 06:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク