An Open-source Benchmark of Deep Learning Models for Audio-visual Apparent and Self-reported Personality Recognition

要約

人格は、人間の内面と外面の状態を理解する上で非常に重要です。
既存のパーソナリティ コンピューティング アプローチの大部分は、複雑でデータセット固有の前処理手順とモデル トレーニングのトリックに悩まされています。
一貫した実験設定を備えた標準化されたベンチマークがない場合、これらのパーソナリティ コンピューティング モデルの実際のパフォーマンスを公正に比較することは不可能であるだけでなく、再現も困難になります。
このホワイト ペーパーでは、8 つの既存のパーソナリティ コンピューティング モデル (オーディオ、ビジュアル、オーディオ ビジュアルなど) と 7 つの標準的なディープ ラーニング モデルの公平で一貫した評価を提供する、再現可能なオーディオ ビジュアル ベンチマーク フレームワークを初めて紹介します。
明らかな人格認識タスク。
ベンチマークされたすべてのモデルを包括的に調査し、公開されている 2 つのデータセット、オーディオビジュアルの見かけのパーソナリティ (ChaLearn First Impression) および自己申告パーソナリティ (UDIVA) データセットでパーソナリティ特性をモデル化する能力を実証します。
実験結果は次のように結論付けています。
(ii)視覚モデルは、人格認識において聴覚モデルよりも優れたパフォーマンスを達成することがよくありました。
(iii)非言語的行動は、さまざまな性格特性の予測にさまざまに貢献します。
コードは https://github.com/liaorongfan/DeepPersonality で公開されています。

要約(オリジナル)

Personality is crucial for understanding human internal and external states. The majority of existing personality computing approaches suffer from complex and dataset-specific pre-processing steps and model training tricks. In the absence of a standardized benchmark with consistent experimental settings, it is not only impossible to fairly compare the real performances of these personality computing models but also makes them difficult to be reproduced. In this paper, we present the first reproducible audio-visual benchmarking framework to provide a fair and consistent evaluation of eight existing personality computing models (e.g., audio, visual and audio-visual) and seven standard deep learning models on both self-reported and apparent personality recognition tasks. We conduct a comprehensive investigation into all the benchmarked models to demonstrate their capabilities in modelling personality traits on two publicly available datasets, audio-visual apparent personality (ChaLearn First Impression) and self-reported personality (UDIVA) datasets. The experimental results conclude: (i) apparent personality traits, inferred from facial behaviours by most benchmarked deep learning models, show more reliability than self-reported ones; (ii) visual models frequently achieved superior performances than audio models on personality recognition; and (iii) non-verbal behaviours contribute differently in predicting different personality traits. We make the code publicly available at https://github.com/liaorongfan/DeepPersonality .

arxiv情報

著者 Rongfan Liao,Siyang Song,Hatice Gunes
発行日 2022-10-17 14:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.CV, I.2.1 パーマリンク