要約
ビデオからの表情表現認識(FER)は、ヒューマンコンピューターの相互作用や健康監視(痛み、うつ病、疲労、ストレスなど)など、さまざまなアプリケーション分野で重要なタスクです。
微妙な感情的または健康状態を認識することの課題を超えて、ディープFERモデルの有効性は、被験者間の表現のかなりの変動性によってしばしば妨げられます。
ソースフリードメイン適応(SFDA)メソッドが採用されており、非標識ターゲットドメインデータのみを使用して事前に訓練されたソースモデルを適応させ、データプライバシーとストレージの問題を回避します。
通常、SFDAメソッドは、集団全体に対応するターゲットドメインデータセットに適応し、すべての認識クラスのデータが含まれていると想定しています。
ただし、このような包括的なターゲットデータを収集することは、ヘルスケアアプリケーションではFERにとって困難または不可能です。
多くの実際のシナリオでは、展開前にターゲット被験者の短いニュートラル制御ビデオ(ニュートラル式のみを表示)を収集することが可能です。
これらのビデオを使用して、被験者間の表現の変動性をよりよく処理するためにモデルを適応させることができます。
このホワイトペーパーでは、ターゲット式データの欠落によってもたらされるSFDAチャレンジに対処するために、解き込められたソースフリードメイン適応(DSFDA)メソッドを紹介します。
DSFDAは、非中立データが欠落しているターゲットデータのエンドツーエンドの生成と適応のためのニュートラルターゲット制御ビデオのデータを活用します。
私たちの方法は、欠落している非中立ターゲットデータを生成しながら、表現とアイデンティティに関連する機能を解くことを学び、それによりモデルの精度が向上します。
さらに、私たちの自己監督戦略は、同じアイデンティティとソースの表現を維持するターゲット画像を再構築することにより、モデルの適応を改善します。
要約(オリジナル)
Facial Expression Recognition (FER) from videos is a crucial task in various application areas, such as human-computer interaction and health monitoring (e.g., pain, depression, fatigue, and stress). Beyond the challenges of recognizing subtle emotional or health states, the effectiveness of deep FER models is often hindered by the considerable variability of expressions among subjects. Source-free domain adaptation (SFDA) methods are employed to adapt a pre-trained source model using only unlabeled target domain data, thereby avoiding data privacy and storage issues. Typically, SFDA methods adapt to a target domain dataset corresponding to an entire population and assume it includes data from all recognition classes. However, collecting such comprehensive target data can be difficult or even impossible for FER in healthcare applications. In many real-world scenarios, it may be feasible to collect a short neutral control video (displaying only neutral expressions) for target subjects before deployment. These videos can be used to adapt a model to better handle the variability of expressions among subjects. This paper introduces the Disentangled Source-Free Domain Adaptation (DSFDA) method to address the SFDA challenge posed by missing target expression data. DSFDA leverages data from a neutral target control video for end-to-end generation and adaptation of target data with missing non-neutral data. Our method learns to disentangle features related to expressions and identity while generating the missing non-neutral target data, thereby enhancing model accuracy. Additionally, our self-supervision strategy improves model adaptation by reconstructing target images that maintain the same identity and source expression.
arxiv情報
著者 | Masoumeh Sharafi,Emma Ollivier,Muhammad Osama Zeeshan,Soufiane Belharbi,Marco Pedersoli,Alessandro Lameiras Koerich,Simon Bacon,Eric~Granger |
発行日 | 2025-03-26 17:53:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google