Occlusion-Aware Deep Convolutional Neural Network via Homogeneous Tanh-transforms for Face Parsing

要約

顔解析は、意味論的な顔コンポーネントごとにピクセル単位のラベル マップを推測します。
以前の方法は通常、覆われていない顔にはうまく機能しますが、特に新型コロナウイルス感染症の流行で顔のオクルージョンが一般的な状況になった場合、顔のオクルージョンを見落とし、単一の顔の外側の一部のコンテキスト領域を無視します。
画像の照明理論に触発されて、画像前処理のための新しい均一なtanh変換を提案します。これは、中心視覚と周辺視覚を融合する4つのtanh変換で構成されます。
私たちが提案した方法は、オクルージョン下での顔解析のジレンマに対処し、周囲のコンテキストのより多くの情報を圧縮します。
同次tanh変換に基づいて、遮蔽された顔を解析するためのオクルージョンを意識した畳み込みニューラルネットワークを提案します。
タン極空間とタンデカルト空間の両方の情報を組み合わせて、受容野を強化することができます。
さらに、オクルージョンされた領域の境界に焦点を当てるために、オクルージョンを意識した損失を導入します。
ネットワークはシンプルかつ柔軟で、エンドツーエンドでトレーニングできます。
遮蔽された顔解析の将来の研究を促進するために、私たちは新しいクリーン化された顔解析データセットも提供します。このデータセットは、CelebAMask-HQ、ショートビデオ顔解析、Helen データセットなど、いくつかの学術または産業用データセットから手動で精製され、公開されます。

実験により、私たちの方法がオクルージョン下での顔解析の最先端の方法を超えることが実証されました。

要約(オリジナル)

Face parsing infers a pixel-wise label map for each semantic facial component. Previous methods generally work well for uncovered faces, however overlook the facial occlusion and ignore some contextual area outside a single face, especially when facial occlusion has become a common situation during the COVID-19 epidemic. Inspired by the illumination theory of image, we propose a novel homogeneous tanh-transforms for image preprocessing, which made up of four tanh-transforms, that fuse the central vision and the peripheral vision together. Our proposed method addresses the dilemma of face parsing under occlusion and compresses more information of surrounding context. Based on homogeneous tanh-transforms, we propose an occlusion-aware convolutional neural network for occluded face parsing. It combines the information both in Tanh-polar space and Tanh-Cartesian space, capable of enhancing receptive fields. Furthermore, we introduce an occlusion-aware loss to focus on the boundaries of occluded regions. The network is simple and flexible, and can be trained end-to-end. To facilitate future research of occluded face parsing, we also contribute a new cleaned face parsing dataset, which is manually purified from several academic or industrial datasets, including CelebAMask-HQ, Short-video Face Parsing as well as Helen dataset and will make it public. Experiments demonstrate that our method surpasses state-of-art methods of face parsing under occlusion.

arxiv情報

著者 Weihua Liu,Chaochao Lin,Haoping Yu,Said Boumaraf,Zhaoqiong Pi
発行日 2023-08-29 14:20:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク