要約
マルチモーダルファンデーションモデルは、複数のモダリティから情報を統合することにより、機能表現を大幅に改善し、より広範なアプリケーションに非常に適しています。
ただし、知覚を理解するためのマルチモーダルの顔の表現の調査は限られています。
アクションユニット(AUS)や感情などの顔の状態を理解して分析するには、視覚的および言語的モダリティを橋渡しする包括的で堅牢なフレームワークが必要です。
この論文では、マルチモーダルフェイシャルステート分析のための包括的なパイプラインを紹介します。
まず、GPT-4oを活用することにより、アクションユニット(AU)と感情の説明を組み込む、顔の詳細なマルチレベル言語の説明を生成することにより、新しいマルチモーダルフェイスデータセット(MFA)をコンパイルします。
第二に、アクションユニット(AU)と感情認識に合わせた新しいマルチレベルマルチモーダルフェイスファンデーションモデル(MF^2)を紹介します。
私たちのモデルには、フェイスイメージのローカルレベルとグローバルレベルの両方の両方で包括的な視覚機能モデリングが組み込まれており、詳細な顔の外観を表す能力が向上しています。
この設計は、視覚表現を構造化されたAUおよび感情の説明に合わせて、効果的なクロスモーダル統合を確保します。
第三に、さまざまなタスクとデータセットにMF^2を効率的に適応させるデカップされた微調整ネットワーク(DFN)を開発します。
このアプローチは、計算オーバーヘッドを削減するだけでなく、ファンデーションモデルの適用性を多様なシナリオに拡大します。
実験では、AUおよび感情検出タスクの優れたパフォーマンスが示されています。
要約(オリジナル)
Multimodal foundation models have significantly improved feature representation by integrating information from multiple modalities, making them highly suitable for a broader set of applications. However, the exploration of multimodal facial representation for understanding perception has been limited. Understanding and analyzing facial states, such as Action Units (AUs) and emotions, require a comprehensive and robust framework that bridges visual and linguistic modalities. In this paper, we present a comprehensive pipeline for multimodal facial state analysis. First, we compile a new Multimodal Face Dataset (MFA) by generating detailed multilevel language descriptions of face, incorporating Action Unit (AU) and emotion descriptions, by leveraging GPT-4o. Second, we introduce a novel Multilevel Multimodal Face Foundation model (MF^2) tailored for Action Unit (AU) and emotion recognition. Our model incorporates comprehensive visual feature modeling at both local and global levels of face image, enhancing its ability to represent detailed facial appearances. This design aligns visual representations with structured AU and emotion descriptions, ensuring effective cross-modal integration. Third, we develop a Decoupled Fine-Tuning Network (DFN) that efficiently adapts MF^2 across various tasks and datasets. This approach not only reduces computational overhead but also broadens the applicability of the foundation model to diverse scenarios. Experimentation show superior performance for AU and emotion detection tasks.
arxiv情報
著者 | Kaiwen Zheng,Xuri Ge,Junchen Fu,Jun Peng,Joemon M. Jose |
発行日 | 2025-04-14 16:00:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google