Explainable Human-centered Traits from Head Motion and Facial Expression Dynamics

要約

性格とインタビュー固有の特性の説明可能な予測のためのマルチモーダル行動手がかりの有効性を探ります。
これらの人間中心の特性を推定するために、キネムと呼ばれる基本的な頭の動きのユニット、アクションユニットと呼ばれるアトミックな顔の動き、および音声の特徴を利用します。
経験的結果は、キネムとアクション ユニットが複数の特性固有の動作の発見を可能にすると同時に、予測をサポートする説明可能性も可能にすることを確認しています。
手がかりを融合するために、決定と機能レベルの融合、および形質予測のための3つのモダリティの相対的な重要性を定量化する付加的な注意ベースの融合戦略を探ります。
MIT インタビューおよび First Impressions Candidate Screening (FICS) データセットの分類と回帰のためのさまざまな長短期記憶 (LSTM) アーキテクチャを調べると、(1) マルチモーダル アプローチはユニモーダル アプローチよりも優れている。
(2) 効率的な形質予測ともっともらしい説明は、単峰性アプローチと多峰性アプローチの両方で達成されます。(3) 薄スライス アプローチに従って、2 秒の行動スニペットからでも効果的な形質予測が達成されます。

要約(オリジナル)

We explore the efficacy of multimodal behavioral cues for explainable prediction of personality and interview-specific traits. We utilize elementary head-motion units named kinemes, atomic facial movements termed action units and speech features to estimate these human-centered traits. Empirical results confirm that kinemes and action units enable discovery of multiple trait-specific behaviors while also enabling explainability in support of the predictions. For fusing cues, we explore decision and feature-level fusion, and an additive attention-based fusion strategy which quantifies the relative importance of the three modalities for trait prediction. Examining various long-short term memory (LSTM) architectures for classification and regression on the MIT Interview and First Impressions Candidate Screening (FICS) datasets, we note that: (1) Multimodal approaches outperform unimodal counterparts; (2) Efficient trait predictions and plausible explanations are achieved with both unimodal and multimodal approaches, and (3) Following the thin-slice approach, effective trait prediction is achieved even from two-second behavioral snippets.

arxiv情報

著者 Surbhi Madan,Monika Gahalawat,Tanaya Guha,Roland Goecke,Ramanathan Subramanian
発行日 2023-02-20 07:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク