Reading Between the Frames: Multi-Modal Depression Detection in Videos from Non-Verbal Cues

要約

うつ病は世界的な障害の顕著な原因であり、人口のかなりの部分に影響を与えています。
ソーシャルメディアのテキストからうつ病を検出する取り組みは普及していますが、ユーザーが作成したビデオコンテンツからうつ病を検出することを検討した研究はほんのわずかです。
この研究では、騒々しい現実世界のビデオのさまざまなモダリティから非言語的うつ病の手がかりを識別できる、シンプルで柔軟なマルチモーダル時間モデルを提案することで、この研究ギャップに対処します。
私たちは、野生のビデオの場合、優れたパフォーマンスを達成するには、追加の高レベルの非言語キューを使用することが重要であることを示し、音声音声の埋め込み、顔の感情の埋め込み、顔、体、手のランドマーク、および視線を抽出して処理しました。
と点滅する情報。
広範な実験を通じて、私たちのモデルがビデオからのうつ病検出に関する 3 つの主要なベンチマーク データセットで最先端の結果を大幅に得ていることを示しました。
私たちのコードは GitHub で公開されています。

要約(オリジナル)

Depression, a prominent contributor to global disability, affects a substantial portion of the population. Efforts to detect depression from social media texts have been prevalent, yet only a few works explored depression detection from user-generated video content. In this work, we address this research gap by proposing a simple and flexible multi-modal temporal model capable of discerning non-verbal depression cues from diverse modalities in noisy, real-world videos. We show that, for in-the-wild videos, using additional high-level non-verbal cues is crucial to achieving good performance, and we extracted and processed audio speech embeddings, face emotion embeddings, face, body and hand landmarks, and gaze and blinking information. Through extensive experiments, we show that our model achieves state-of-the-art results on three key benchmark datasets for depression detection from video by a substantial margin. Our code is publicly available on GitHub.

arxiv情報

著者 David Gimeno-Gómez,Ana-Maria Bucur,Adrian Cosma,Carlos-David Martínez-Hinarejos,Paolo Rosso
発行日 2024-01-05 10:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク