要約
マイクロアクションとは、強度の低い動きによって特徴づけられる、知覚できない非言語的行動のことである。これは、個人の感情や意図に関する洞察を提供し、感情認識や心理評価などの人間指向のアプリケーションにとって重要である。しかし、マイクロアクションの識別、区別、理解は、日常生活におけるこれらの微妙な人間の行動の知覚できない、アクセスできない性質のために、課題を提起する。本研究では、Micro-Action-52 (MA-52)と名付けられた新しいマイクロアクションデータセットを革新的に収集し、マイクロアクション認識(MAR)タスクのためのマイクロアクションネットワーク(MANet)と名付けられたベンチマークを提案する。MA-52は、ジェスチャー、上肢、下肢の動きを含む全身的な視点を提供し、包括的なマイクロアクションの手がかりを明らかにしようとするユニークなものである。詳細には、MA-52は、7つの身体部位ラベルとともに52のマイクロアクションカテゴリを含み、205人の参加者と心理面接から照合された22,422のビデオインスタンスからなる、現実的で自然なマイクロアクションの完全な配列を包含する。提案されたデータセットに基づいて、MANetと他の9つの一般的な行動認識手法を評価する。MANetは、微小動作の時空間特性をモデル化するために、ResNetアーキテクチャにスクイーズアンドエクスキューション(SE)とテンポラルシフトモジュール(TSM)を組み込んでいる。次に、ビデオとアクションラベル間の意味的マッチングのために、結合埋め込み損失が設計され、損失は視覚的に類似しているが、異なる微小アクションカテゴリをより良く区別するために使用される。感情認識への拡張応用は、我々の提案するデータセットと手法の重要な価値の一つを実証している。将来的には、人間の行動、感情、および心理学的評価のさらなる探求が深く行われる予定である。データセットとソースコードはhttps://github.com/VUT-HFUT/Micro-Action。
要約(オリジナル)
Micro-action is an imperceptible non-verbal behaviour characterised by low-intensity movement. It offers insights into the feelings and intentions of individuals and is important for human-oriented applications such as emotion recognition and psychological assessment. However, the identification, differentiation, and understanding of micro-actions pose challenges due to the imperceptible and inaccessible nature of these subtle human behaviors in everyday life. In this study, we innovatively collect a new micro-action dataset designated as Micro-action-52 (MA-52), and propose a benchmark named micro-action network (MANet) for micro-action recognition (MAR) task. Uniquely, MA-52 provides the whole-body perspective including gestures, upper- and lower-limb movements, attempting to reveal comprehensive micro-action cues. In detail, MA-52 contains 52 micro-action categories along with seven body part labels, and encompasses a full array of realistic and natural micro-actions, accounting for 205 participants and 22,422 video instances collated from the psychological interviews. Based on the proposed dataset, we assess MANet and other nine prevalent action recognition methods. MANet incorporates squeeze-and excitation (SE) and temporal shift module (TSM) into the ResNet architecture for modeling the spatiotemporal characteristics of micro-actions. Then a joint-embedding loss is designed for semantic matching between video and action labels; the loss is used to better distinguish between visually similar yet distinct micro-action categories. The extended application in emotion recognition has demonstrated one of the important values of our proposed dataset and method. In the future, further exploration of human behaviour, emotion, and psychological assessment will be conducted in depth. The dataset and source code are released at https://github.com/VUT-HFUT/Micro-Action.
arxiv情報
著者 | Dan Guo,Kun Li,Bin Hu,Yan Zhang,Meng Wang |
発行日 | 2024-06-03 04:39:51+00:00 |
arxivサイト | arxiv_id(pdf) |