Expression-preserving face frontalization improves visually assisted speech processing

要約

顔の正面化は、任意に見た顔から正面から見た顔を合成することで構成されます。
この論文の主な貢献は、視覚支援音声コミュニケーションのパフォーマンスを向上させるために、非剛性の顔の変形を保持する正面化方法論です。
この方法では、(i) 剛体変換 (スケール、回転、平行移動) と (ii) 任意に表示された顔と顔モデルの間の非剛体変形の推定が交互に行われます。
この方法には 2 つの重要なメリットがあります。データの非ガウス誤差を処理できることと、動的顔変形モデルが組み込まれていることです。
その目的のために、一般化されたスチューデント t 分布を線形動的システムと組み合わせて使用​​し、音声生成によって引き起こされる剛体の頭の動きと時間とともに変化する顔の変形の両方を説明します。
顔の表情を保持する方法の能力を評価するために、ゼロ平均正規化相互相関 (ZNCC) スコアを使用することを提案します。
この方法は徹底的に評価され、従来の幾何学的モデルまたは深層学習に基づくいくつかの最先端の方法と比較されます。
さらに、深層学習パイプライン、つまり読唇術と音声強調にこの方法を組み込むと、単語認識と音声理解度スコアが大幅に向上することを示しています。
補足資料は、https://team.inria.fr/robotlearn/research/facefrontalization/ でアクセスできます。

要約(オリジナル)

Face frontalization consists of synthesizing a frontally-viewed face from an arbitrarily-viewed one. The main contribution of this paper is a frontalization methodology that preserves non-rigid facial deformations in order to boost the performance of visually assisted speech communication. The method alternates between the estimation of (i)~the rigid transformation (scale, rotation, and translation) and (ii)~the non-rigid deformation between an arbitrarily-viewed face and a face model. The method has two important merits: it can deal with non-Gaussian errors in the data and it incorporates a dynamical face deformation model. For that purpose, we use the generalized Student t-distribution in combination with a linear dynamic system in order to account for both rigid head motions and time-varying facial deformations caused by speech production. We propose to use the zero-mean normalized cross-correlation (ZNCC) score to evaluate the ability of the method to preserve facial expressions. The method is thoroughly evaluated and compared with several state of the art methods, either based on traditional geometric models or on deep learning. Moreover, we show that the method, when incorporated into deep learning pipelines, namely lip reading and speech enhancement, improves word recognition and speech intelligibilty scores by a considerable margin. Supplemental material is accessible at https://team.inria.fr/robotlearn/research/facefrontalization/

arxiv情報

著者 Zhiqi Kang,Mostafa Sadeghi,Radu Horaud,Xavier Alameda-Pineda
発行日 2022-12-15 11:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク