要約
ビデオからの表情表現認識(FER)は、ヒューマンコンピューターの相互作用や健康診断や監視(例えば、痛みやうつ病の評価)など、さまざまなアプリケーション分野で重要なタスクです。
微妙な感情的または健康状態を認識するという課題を超えて、深いFERモデルの有効性は、表現のかなりの被験者間の変動によってしばしば妨げられます。
ソースフリー(監視なし)ドメイン適応(SFDA)メソッドを使用して、非標識ターゲットドメインデータのみを使用して事前に訓練されたソースモデルを適応させることができ、それによりデータプライバシー、ストレージ、および送信の問題を回避できます。
通常、SFDAメソッドは、集団全体に対応するターゲットドメインデータセットに適応し、すべての認識クラスのデータが含まれていると想定しています。
ただし、このような包括的なターゲットデータを収集することは、ヘルスケアアプリケーションではFERにとって困難または不可能です。
多くの実際のシナリオでは、展開前にターゲット被験者から短いニュートラル制御ビデオ(ニュートラル式のみを表示)を収集することが可能です。
これらのビデオを使用して、被験者間の表現の変動性をよりよく処理するためにモデルを適応させることができます。
このホワイトペーパーでは、ターゲット式データが欠落しているモデルを適応させることでもたらされる課題に対処するために、解き伸びたSFDA(DSFDA)メソッドを紹介します。
DSFDAは、非中立データが欠落しているターゲットデータのエンドツーエンドの生成と適応のためのニュートラルターゲット制御ビデオのデータを活用します。
私たちの方法は、ターゲット対象の不足していない非中立発現データを生成しながら、表現とアイデンティティに関連する機能を解くことを学び、それによりモデルの精度を向上させます。
さらに、私たちの自己監督戦略は、同じアイデンティティとソースの表現を維持するターゲット画像を再構築することにより、モデルの適応を改善します。
要約(オリジナル)
Facial Expression Recognition (FER) from videos is a crucial task in various application areas, such as human-computer interaction and health diagnosis and monitoring (e.g., assessing pain and depression). Beyond the challenges of recognizing subtle emotional or health states, the effectiveness of deep FER models is often hindered by the considerable inter-subject variability in expressions. Source-free (unsupervised) domain adaptation (SFDA) methods may be employed to adapt a pre-trained source model using only unlabeled target domain data, thereby avoiding data privacy, storage, and transmission issues. Typically, SFDA methods adapt to a target domain dataset corresponding to an entire population and assume it includes data from all recognition classes. However, collecting such comprehensive target data can be difficult or even impossible for FER in healthcare applications. In many real-world scenarios, it may be feasible to collect a short neutral control video (which displays only neutral expressions) from target subjects before deployment. These videos can be used to adapt a model to better handle the variability of expressions among subjects. This paper introduces the Disentangled SFDA (DSFDA) method to address the challenge posed by adapting models with missing target expression data. DSFDA leverages data from a neutral target control video for end-to-end generation and adaptation of target data with missing non-neutral data. Our method learns to disentangle features related to expressions and identity while generating the missing non-neutral expression data for the target subject, thereby enhancing model accuracy. Additionally, our self-supervision strategy improves model adaptation by reconstructing target images that maintain the same identity and source expression.
arxiv情報
著者 | Masoumeh Sharafi,Emma Ollivier,Muhammad Osama Zeeshan,Soufiane Belharbi,Marco Pedersoli,Alessandro Lameiras Koerich,Simon Bacon,Eric Granger |
発行日 | 2025-05-30 16:31:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google