要約
この論文では、CVPR 2023: 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW) での感情反応強度 (ERI) 推定チャレンジの方法を紹介します。
オリジネーターから提供されたマルチモーダル データに基づいて、さまざまな事前トレーニング済みモデルを使用して音響的および視覚的特徴を抽出します。
マルチモーダル機能は、トランスモーダル アテンション メカニズムを備えた Transformer Encoders によって混合されます。
このホワイト ペーパーでは、1. SOTA の事前トレーニング済みモデルを使用して、より優れた特徴を抽出します。
2. ベースラインと比較して、ピアソンの相関係数を大幅に改善します。
3.モデルのパフォーマンス能力を高めるために、いくつかの特別なスキルでデータを処理します。
要約(オリジナル)
This paper introduces our method for the Emotional Reaction Intensity (ERI) Estimation Challenge, in CVPR 2023: 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). Based on the multimodal data provided by the originazers, we extract acoustic and visual features with different pretrained models. The multimodal features are mixed together by Transformer Encoders with cross-modal attention mechnism. In this paper, 1. better features are extracted with the SOTA pretrained models. 2. Compared with the baseline, we improve the Pearson’s Correlations Coefficient a lot. 3. We process the data with some special skills to enhance performance ability of our model.
arxiv情報
著者 | Shangfei Wang,Jiaqiang Wu,Feiyi Zheng,Xin Li,Xuewei Li,Suwen Wang,Yi Wu,Yanan Chang,Xiangyu Miao |
発行日 | 2023-03-16 09:14:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google