Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling

要約

インテリジェントな接続性の現代の時代において、システムが人間の行動状態を認識、解釈、応答できるようにする感情コンピューティング(AC)は、多くのAIシステムの統合された部分になりました。
すべての人間中心のシステムにおける責任あるAIおよび信頼性の最も重要なコンポーネントの1つとして、説明可能性はACの大きな関心事でした。
特に、最近リリースされたEUの一般データ保護規制では、生体認証ベースのシステムや感情的なコンピューティング分野で広く使用されている感情認識システムなど、高リスクのAIシステムが十分に解釈できる必要があります。
既存の説明可能な方法は、しばしば解釈可能性とパフォーマンスの間に妥協します。
それらのほとんどは、利害関係者に意味のあるドメイン固有の説明を提供することなく、主要なネットワークパラメーターの強調にのみ焦点を当てています。
さらに、彼らはまた、マルチモーダルデータソースからの洞察を効果的に共同学習および説明する際の課題に直面しています。
これらの制限に対処するために、斬新で一般化可能なフレームワーク、すなわち、注意ガイド付き概念モデル(AGCM)を提案します。これは、予測につながる概念とそれらが観察される場所を特定することにより、学習可能な概念的説明を提供します。
AGCMは、マルチモーダルの概念の調整と共同学習を通じて、空間的および時間的信号に拡張可能であり、モデルの意思決定プロセスに関するより深い洞察を持つ利害関係者に力を与えます。
確立された表情認識ベンチマークデータセットでのAGCMの効率を検証しながら、より複雑な実世界の人間の行動を理解するアプリケーションに関する一般化性を実証します。

要約(オリジナル)

In the contemporary era of intelligent connectivity, Affective Computing (AC), which enables systems to recognize, interpret, and respond to human behavior states, has become an integrated part of many AI systems. As one of the most critical components of responsible AI and trustworthiness in all human-centered systems, explainability has been a major concern in AC. Particularly, the recently released EU General Data Protection Regulation requires any high-risk AI systems to be sufficiently interpretable, including biometric-based systems and emotion recognition systems widely used in the affective computing field. Existing explainable methods often compromise between interpretability and performance. Most of them focus only on highlighting key network parameters without offering meaningful, domain-specific explanations to the stakeholders. Additionally, they also face challenges in effectively co-learning and explaining insights from multimodal data sources. To address these limitations, we propose a novel and generalizable framework, namely the Attention-Guided Concept Model (AGCM), which provides learnable conceptual explanations by identifying what concepts that lead to the predictions and where they are observed. AGCM is extendable to any spatial and temporal signals through multimodal concept alignment and co-learning, empowering stakeholders with deeper insights into the model’s decision-making process. We validate the efficiency of AGCM on well-established Facial Expression Recognition benchmark datasets while also demonstrating its generalizability on more complex real-world human behavior understanding applications.

arxiv情報

著者 Xinyu Li,Marwa Mahmoud
発行日 2025-02-14 13:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク